مفهوم یادگیری ماشین (machine learning)
یادگیری نظارت شده (supervised learning)
انواع مدل های یادگیری ماشین ، فرآیند یادگیری الگوریتم از مجموعه داده های آموزشی را می توان به عنوان معلمی در نظر گرفت که بر فرآیند یادگیری نظارت می کند. ما پاسخ های صحیح را می دانیم، الگوریتم به طور مکرر روی داده های آموزشی پیش بینی می کند و توسط معلم تصحیح می شود. یادگیری زمانی متوقف می شود که الگوریتم به سطح قابل قبولی از عملکرد دست یابد. در یادگیری نظارت شده، ورودی های واضحی را برای الگوریتم یادگیری ماشین ارائه می دهید. الگوریتم می داند که از داده ها و نتیجه گیری های مورد انتظار از آن چه چیزی را یاد بگیرد. برچسب گذاری داده ها برای ایجاد یک مدل نظارت شده مهم است. شرکت ها مجموعه داده های بزرگ را به صورت روزانه جمع آوری می کنند. برچسبگذاری این مجموعه دادهها برای آسانتر کردن کار مدل یادگیری ماشینی
(machine learning) است. الگوریتمهای یادگیری نظارت شده سعی میکنند روابط و وابستگیهای بین خروجی، پیشبینی هدف و ویژگیهای ورودی را مدلسازی کنند تا بتوانیم مقادیر خروجی دادههای جدید را بر اساس آن روابطی که از مجموعه دادههای قبلی آموخته است، پیشبینی کنیم.
یادگیری نظارت شده را می توان بیشتر به رگرسیون و طبقه بندی دسته بندی کرد که برای سیستم های توصیه گر و پیش بینی سری های زمانی کاربرد داد.
۱- رگرسیون در ارتباط با سری های زمانی که خروجی آن به صورت پیوسته است. هدف نهایی الگوریتم رگرسیون ترسیم بهترین خط یا منحنی بین داده ها است. سه معیار اصلی که برای ارزیابی مدل رگرسیون آموزش دیده استفاده می شود، واریانس، انحراف و خطا هستند.
۲- طبقه بندی که خروجی ها به صورت دسته ای و گسسته است و اساساً مجموعه ای از داده ها را به کلاس ها طبقه بندی می کند.
برخی از نمونه های محبوب الگوریتم های یادگیری ماشینی (machine learning) نظارت شده عبارتند از:
رگرسیون خطی برای مسائل رگرسیون.
جنگل تصادفی برای مسائل طبقه بندی و رگرسیون.
پشتیبانی از ماشین های برداری برای مسائل طبقه بندی.
یادگیری بدون نظارت(unsupervised learning)
در یادگیری بدون نظارت فقط به داده ورودی دسترسی دارید و هیچ متغیر خروجی مرتبطی ندارید. هدف یادگیری بدون نظارت مدل سازی ساختار یا توزیع داده ها به منظور کسب و استخراج بیشتر اطلاعات از داده ها است. در یادگیری بدون نظارت بر خلاف یادگیری نظارت شده، هیچ پاسخ صحیحی وجود ندارد و معلمی وجود ندارد. الگوریتمها برای کشف و ارائه ساختار در دادهها به تدبیر خود عمل می کنند.
الگوریتم های یادگیری بدون نظارت برای خوشه بندی داده و قواعد انجمنی بر اساس ویژگی های موجود استفاده می شود.
- خوشه بندی: درخوشه بندی می خواهید گروه بندی داده ها را کشف کنید، مانند گروه بندی مشتریان با رفتار خرید.
- قواعد انجمنی: میخواهید قوانینی را کشف کنید که بخشهای بزرگی از دادههای شما را توصیف میکنند، مانند افرادی که محصول/ سرویس X را میخرند نیز تمایل به خرید محصول/ سرویس Y دارند. قوانین انجمن به شما اجازه می دهد تا ارتباط بین اشیاء داده در پایگاه داده های بزرگ ایجاد کنند. این تکنیک در مورد کشف روابط بین متغیرها در پایگاه های داده است.
برخی از نمونه های محبوب الگوریتم های یادگیری بدون نظارت عبارتند از:
خوشه بندی سلسله مراتبی
K-به معنای خوشه بندی است
K-NN (k نزدیکترین همسایه)
تجزیه و تحلیل مؤلفه های اصلی
تجزیه مقدار منفرد
تجزیه و تحلیل اجزای مستقل
خوشه بندی سلسله مراتبی
خوشه بندی سلسله مراتبی الگوریتمی است که سلسله مراتبی از خوشه ها را ایجاد می کند. با تمام داده هایی که به یک خوشه اختصاص داده شده اند شروع می شود. در اینجا، دو خوشه نزدیک در یک خوشه قرار می گیرند. این الگوریتم زمانی به پایان می رسد که تنها یک خوشه باقی بماند.
K-means
این نوع خوشه بندی K-means با تعداد ثابتی از خوشه ها شروع می شود. تمام داده ها را به تعداد خوشه ها تخصیص می دهد. این روش خوشه بندی به تعداد خوشه های K به عنوان ورودی نیاز ندارد. این روش با استفاده از اندازه گیری فاصله، تعداد خوشه ها ( در هر تکرار) را با ادغام فرآیند کاهش می دهد. در نهایت، ما یک خوشه بزرگ داریم که شامل تمام اشیاء است.
ک- نزدیکترین همسایگان
K- نزدیکترین همسایه ساده ترین طبقه بندی کننده های یادگیری ماشین است. با سایر تکنیک های یادگیری ماشین تفاوت دارد، زیرا مدلی تولید نمی کند. این یک الگوریتم ساده است که تمام موارد موجود را ذخیره می کند و نمونه های جدید را بر اساس معیار تشابه طبقه بندی می کند.
یادگیری ماشین نیمه نظارت شده (semi- supervised learning)
مسائلی که در آنها مقدار زیادی داده ورودی دارید و فقط برخی از داده ها دارای برچسب هستند، یادگیری نیمه نظارتی نامیده می شوند. در حقیقت یادگیری نیمه نظارت شده بین یادگیری نظارت شده و بدون نظارت قرار می گیرد. می توانید از تکنیک های یادگیری بدون نظارت برای کشف و یادگیری ساختار در متغیرهای ورودی استفاده کنید. همچنین میتوانید از تکنیکهای یادگیری نظارتشده برای انجام بهترین پیشبینیها برای دادههای بدون برچسب استفاده کنید، آن دادهها را به عنوان دادههای آموزشی به الگوریتم یادگیری نظارتشده برگردانید و از مدل برای پیشبینی دادههای بدون نظرت جدید استفاده کنید.
یادگیری تقویتی (reinforcement learning)
هیچ الگوریتم یادگیری ماشینی ۱۰۰٪ دقیق نیست. سطح دقت بستگی به مجموعه داده ای دارد که الگوریتم را با آن آموزش می دهید. این بدان معناست که پس از آموزش یک الگوریتم، مجموعه داده های جدیدی در دسترس خواهد بود. این مجموعه داده ها ممکن است این پتانسیل را داشته باشند که دقت مدل شما را به میزان قابل توجهی بهبود بخشند. برای این نوع سناریو می توانید از یادگیری تقویتی استفاده کنید. یادگیری تقویتی مفهوم به روز رسانی الگوریتم در حین تولید است. مدل های یادگیری تقویتی می توانند بر اساس ورودی های جدید بازآموزی شود.
انواع داده های بدون ساختار
بسیاری از سازمانهای امروزه تلاش میکنند تا حجم رو به رشد دادههای بدون ساختار را مدیریت کنند. یادگیری ماشینی ساختار و معنی مناسب را به داده ها می دهد تا به تصمیم گیری ، سرمایه گذاری و تعیین استراتژی کمک کند.
۱- ساختار یافته(Structured data)
۲- غیرساختار یافته(Unstructured data )
۳- نیمه ساختار یافته (Semi-structured data)
داده های ساختار یافته چیست؟
داده های ساختاریافته کمی(عددی)، بسیار سازمان یافته و با استفاده از نرم افزار تجزیه و تحلیل داده ها قابل بررسی و تجزیه و تحلیل هستند. این نوع از داده ها طراحی منظمی دارند و در ردیفها، ستونها و جداول قرار میگیرند. داده های ساختار یافته برای سازماندهی اولیه و محاسبات کمی عالی هستند، اما در تعیین پارامتر ها انعطاف پذیری لازم را ندارند. و هم چنین می تواند بیش کافی را به افراد ندهد.
داده های غیر ساختار یافته چیست؟
داده های بدون ساختار اطلاعاتی هستند که سازماندهی خاصی ندارند و در چارچوب تعریف شده قرار نمی گیرند. نمونههایی از دادههای بدون ساختار عبارتند از: صدا، ویدئو، تصاویر و انواع متن: گزارشها، ایمیلها، پستهای رسانههای اجتماعی.
یافتن بینش در دادههای بدون ساختار آسان نیست، اما زمانی که دادههای متنی به درستی تجزیه و تحلیل شوند، میتوانند برای استخراج نتایج کیفی، مانند نظرات مشتریان، یا سازماندهی دادههای کسبوکار بسیار ارزشمند باشند.
داده های نیمه ساختاریافته چیست؟
داده های نیمه ساختار یافته به داده هایی گفته می شود که با یک مدل داده مطابقت ندارند اما دارای ساختاری هستند. داده هایی هستند که در یک پایگاه داده منطقی قرار نمی گیرند، اما دارای برخی ویژگی های سازمان یافته هستند که تجزیه و تحلیل آن را آسان تر می کند.
ویژگی های داده های نیمه ساختار یافته:
- داده ها با یک مدل داده مطابقت ندارند اما دارای ساختار هستند.
- داده ها را نمی توان در قالب سطر و ستون مانند پایگاه داده ذخیره کرد
- داده های نیمه ساختاریافته حاوی برچسب ها و عناصری هستند که برای گروه بندی و توصیف نحوه ذخیره داده ها استفاده می شود.
- موجودیت های مشابه با هم گروه بندی شده و در یک سلسله مراتب سازماندهی می شوند
- موجودیت های یک گروه ممکن است دارای ویژگی های یکسان باشند یا نداشته باشند
- اندازه و نوع ویژگی های یکسان در یک گروه ممکن است متفاوت باشد
- به دلیل نداشتن ساختار مشخص، نمی توان به راحتی توسط برنامه های کامپیوتری از آن استفاده کرد. با برخی از فرآیندها، می توانیم آنها را در پایگاه داده رابطه ای ذخیره کنیم.
کلید واژه ها: یادگیری ماشین (machine learning)، یادگیری نظارت شده (supervised learning)، یادگیری بدون نظارت(unsupervised learning)، داده ساختار یافته(Structured data) ، داده غیرساختار یافته(Unstructured data)، داده نیمه ساختار یافته (Semi-structured data)