انواع مدل های یادگیری ماشین

انواع مدل های یادگیری ماشین

مفهوم یادگیری ماشین (machine learning)

یادگیری نظارت شده (supervised learning)

انواع مدل های یادگیری ماشین ، فرآیند یادگیری الگوریتم از مجموعه داده های آموزشی را می توان به عنوان معلمی در نظر گرفت که بر فرآیند یادگیری نظارت می کند. ما پاسخ های صحیح را می دانیم، الگوریتم به طور مکرر روی داده های آموزشی پیش بینی می کند و توسط معلم تصحیح می شود. یادگیری زمانی متوقف می شود که الگوریتم به سطح قابل قبولی از عملکرد دست یابد. در یادگیری نظارت شده، ورودی های واضحی را برای الگوریتم یادگیری ماشین ارائه می دهید. الگوریتم می داند که از داده ها و نتیجه گیری های مورد انتظار از آن چه چیزی را یاد بگیرد. برچسب گذاری داده ها برای ایجاد یک مدل نظارت شده مهم است. شرکت ها مجموعه داده های بزرگ را به صورت روزانه جمع آوری می کنند. برچسب‌گذاری این مجموعه داده‌ها برای آسان‌تر کردن کار مدل یادگیری ماشینی
(machine learning) است. الگوریتم‌های یادگیری نظارت شده سعی می‌کنند روابط و وابستگی‌های بین خروجی، پیش‌بینی هدف و ویژگی‌های ورودی را مدل‌سازی کنند تا بتوانیم مقادیر خروجی داده‌های جدید را بر اساس آن روابطی که از مجموعه داده‌های قبلی آموخته است، پیش‌بینی کنیم.
یادگیری نظارت شده را می توان بیشتر به رگرسیون و طبقه بندی دسته بندی کرد که برای سیستم های توصیه گر و پیش بینی سری های زمانی کاربرد داد.
۱- رگرسیون در ارتباط با سری های زمانی که خروجی آن به صورت پیوسته است. هدف نهایی الگوریتم رگرسیون ترسیم بهترین خط یا منحنی بین داده ها است. سه معیار اصلی که برای ارزیابی مدل رگرسیون آموزش دیده استفاده می شود، واریانس، انحراف و خطا هستند.

۲- طبقه بندی که خروجی ها به صورت دسته ای و گسسته است و اساساً مجموعه ای از داده ها را به کلاس ها طبقه بندی می کند.

برخی از نمونه های محبوب الگوریتم های یادگیری ماشینی (machine learning) نظارت شده عبارتند از:
رگرسیون خطی برای مسائل رگرسیون.
جنگل تصادفی برای مسائل طبقه بندی و رگرسیون.
پشتیبانی از ماشین های برداری برای مسائل طبقه بندی.

یادگیری بدون نظارت(unsupervised learning)

در یادگیری بدون نظارت فقط به داده ورودی دسترسی دارید و هیچ متغیر خروجی مرتبطی ندارید. هدف یادگیری بدون نظارت مدل سازی ساختار یا توزیع داده ها به منظور کسب و استخراج بیشتر اطلاعات از داده ها است. در یادگیری بدون نظارت بر خلاف یادگیری نظارت شده، هیچ پاسخ صحیحی وجود ندارد و معلمی وجود ندارد. الگوریتم‌ها برای کشف و ارائه ساختار در داده‌ها به تدبیر خود عمل می کنند.

الگوریتم های یادگیری بدون نظارت برای خوشه بندی داده  و قواعد انجمنی بر اساس ویژگی های موجود استفاده می شود.

  • خوشه بندی: درخوشه بندی می خواهید گروه بندی داده ها را کشف کنید، مانند گروه بندی مشتریان با رفتار خرید.
    • قواعد انجمنی: می‌خواهید قوانینی را کشف کنید که بخش‌های بزرگی از داده‌های شما را توصیف می‌کنند، مانند افرادی که محصول/ سرویس X را می‌خرند نیز تمایل به خرید محصول/ سرویس Y دارند.  قوانین انجمن به شما اجازه می دهد تا ارتباط بین اشیاء داده در پایگاه داده های بزرگ ایجاد کنند. این تکنیک در مورد کشف روابط بین متغیرها در پایگاه های داده است.

    برخی از نمونه های محبوب الگوریتم های یادگیری بدون نظارت عبارتند از:

     

    خوشه بندی سلسله مراتبی

    K-به معنای خوشه بندی است

    K-NN (k نزدیکترین همسایه)

    تجزیه و تحلیل مؤلفه های اصلی

    تجزیه مقدار منفرد

    تجزیه و تحلیل اجزای مستقل

خوشه بندی سلسله مراتبی

خوشه بندی سلسله مراتبی الگوریتمی است که سلسله مراتبی از خوشه ها را ایجاد می کند. با تمام داده هایی که به یک خوشه اختصاص داده شده اند شروع می شود. در اینجا، دو خوشه نزدیک در یک خوشه قرار می گیرند. این الگوریتم زمانی به پایان می رسد که تنها یک خوشه باقی بماند.

K-means

این نوع خوشه بندی K-means با تعداد ثابتی از خوشه ها شروع می شود. تمام داده ها را به تعداد خوشه ها تخصیص می دهد. این روش خوشه بندی به تعداد خوشه های K به عنوان ورودی نیاز ندارد. این روش با استفاده از اندازه گیری فاصله، تعداد خوشه ها ( در هر تکرار) را با ادغام فرآیند کاهش می دهد. در نهایت، ما یک خوشه بزرگ داریم که شامل تمام اشیاء است.

ک- نزدیکترین همسایگان

K- نزدیکترین همسایه ساده ترین طبقه بندی کننده های یادگیری ماشین است. با سایر تکنیک های یادگیری ماشین تفاوت دارد، زیرا مدلی تولید نمی کند. این یک الگوریتم ساده است که تمام موارد موجود را ذخیره می کند و نمونه های جدید را بر اساس معیار تشابه طبقه بندی می کند.

یادگیری ماشین نیمه نظارت شده (semi- supervised learning)

مسائلی که در آنها مقدار زیادی داده ورودی دارید و فقط برخی از داده ها دارای برچسب هستند، یادگیری نیمه نظارتی نامیده می شوند. در حقیقت یادگیری نیمه نظارت شده بین یادگیری نظارت شده و بدون نظارت قرار می گیرد. می توانید از تکنیک های یادگیری بدون نظارت برای کشف و یادگیری ساختار در متغیرهای ورودی استفاده کنید. همچنین می‌توانید از تکنیک‌های یادگیری نظارت‌شده برای انجام بهترین پیش‌بینی‌ها برای داده‌های بدون برچسب استفاده کنید، آن داده‌ها را به عنوان داده‌های آموزشی به الگوریتم یادگیری نظارت‌شده برگردانید و از مدل برای پیش‌بینی داده‌های بدون نظرت جدید استفاده کنید.

یادگیری تقویتی (reinforcement learning)

هیچ الگوریتم یادگیری ماشینی ۱۰۰٪ دقیق نیست. سطح دقت بستگی به مجموعه داده ای دارد که الگوریتم را با آن آموزش می دهید. این بدان معناست که پس از آموزش یک الگوریتم، مجموعه داده های جدیدی در دسترس خواهد بود. این مجموعه داده ها ممکن است این پتانسیل را داشته باشند که دقت مدل شما را به میزان قابل توجهی بهبود بخشند. برای این نوع سناریو می توانید از یادگیری تقویتی استفاده کنید. یادگیری تقویتی مفهوم به روز رسانی الگوریتم در حین تولید است. مدل های یادگیری تقویتی می توانند بر اساس ورودی های جدید بازآموزی شود.

انواع داده های بدون ساختار

بسیاری از سازمان‌های امروزه تلاش می‌کنند تا حجم رو به رشد داده‌های بدون ساختار را مدیریت کنند. یادگیری ماشینی ساختار و معنی مناسب را به داده ها می دهد تا به تصمیم گیری ، سرمایه گذاری  و تعیین استراتژی  کمک کند.

۱- ساختار یافته(Structured data)

۲- غیرساختار یافته(Unstructured data )

۳- نیمه ساختار یافته (Semi-structured data)

داده های ساختار یافته چیست؟

داده های ساختاریافته کمی(عددی)، بسیار سازمان یافته و با استفاده از نرم افزار تجزیه و تحلیل داده ها قابل بررسی و تجزیه و تحلیل هستند. این نوع از داده ها طراحی منظمی دارند و در ردیف‌ها، ستون‌ها و جداول قرار می‌گیرند. داده های ساختار یافته برای سازماندهی اولیه و محاسبات کمی عالی هستند، اما در تعیین پارامتر ها انعطاف پذیری لازم را ندارند. و هم چنین می تواند بیش کافی را به افراد ندهد.

داده های غیر ساختار یافته چیست؟

داده های بدون ساختار اطلاعاتی هستند که سازماندهی خاصی ندارند و در چارچوب تعریف شده قرار نمی گیرند. نمونه‌هایی از داده‌های بدون ساختار عبارتند از: صدا، ویدئو، تصاویر و انواع متن: گزارش‌ها، ایمیل‌ها، پست‌های رسانه‌های اجتماعی.
یافتن بینش در داده‌های بدون ساختار آسان نیست، اما زمانی که داده‌های متنی به درستی تجزیه و تحلیل شوند، می‌توانند برای استخراج نتایج کیفی، مانند نظرات مشتریان، یا سازمان‌دهی داده‌های کسب‌وکار بسیار ارزشمند باشند.

داده های نیمه ساختاریافته چیست؟

داده های نیمه ساختار یافته به داده هایی گفته می شود که با یک مدل داده مطابقت ندارند اما دارای ساختاری هستند. داده هایی هستند که در یک پایگاه داده منطقی قرار نمی گیرند، اما دارای برخی ویژگی های سازمان یافته هستند که تجزیه و تحلیل آن را آسان تر می کند.

 ویژگی های داده های نیمه ساختار یافته:

  • داده ها با یک مدل داده مطابقت ندارند اما دارای ساختار هستند.
  • داده ها را نمی توان در قالب سطر و ستون مانند پایگاه داده ذخیره کرد
  • داده های نیمه ساختاریافته حاوی برچسب ها و عناصری هستند که برای گروه بندی و توصیف نحوه ذخیره داده ها استفاده می شود.
  • موجودیت های مشابه با هم گروه بندی شده و در یک سلسله مراتب سازماندهی می شوند
  • موجودیت های یک گروه ممکن است دارای ویژگی های یکسان باشند یا نداشته باشند
  • اندازه و نوع ویژگی های یکسان در یک گروه ممکن است متفاوت باشد
  • به دلیل نداشتن ساختار مشخص، نمی توان به راحتی توسط برنامه های کامپیوتری از آن استفاده کرد. با برخی از فرآیندها، می توانیم آنها را در پایگاه داده رابطه ای ذخیره کنیم.

 

 

کلید واژه ها: یادگیری ماشین (machine learning)، یادگیری نظارت شده (supervised learning)، یادگیری بدون نظارت(unsupervised learning)، داده ساختار یافته(Structured data) ، داده غیرساختار یافته(Unstructured data)، داده نیمه ساختار یافته (Semi-structured data)