یادگیری ماشین تحت نظارت supervised machine learning

یادگیری ماشین تحت نظارت supervised machine learning

یادگیری تحت نظارت (supervised machine learning)چگونه کار می کند؟

در یادگیری نظارت شده، مدل‌ها با استفاده از مجموعه داده‌های برچسب‌گذاری شده آموزش داده می‌شوند، جایی که مدل در مورد هر نوع داده می‌آموزد. پس از تکمیل فرآیند آموزش، مدل بر اساس داده های آزمون- تست (زیرمجموعه ای از مجموعه آموزشی) آزمایش می شود و سپس خروجی را پیش بینی می کند.

یادگیری ماشین تحت نظارت,یادگیری نظارت شده

۱. رگرسیون (Regression)

در رگرسیون، یک مقدار خروجی واحد با استفاده از داده های آموزشی تولید می شود. این مقدار یک تفسیر احتمالی است که پس از در نظر گرفتن قدرت همبستگی بین متغیرهای ورودی مشخص می شود. رگرسیون از مجموعه داده های برچسب دار یاد می گیرد و سپس قادر به پیش بینی یک خروجی با ارزش پیوسته برای داده های جدید داده شده به الگوریتم است.به عنوان مثال، رگرسیون می تواند به پیش بینی قیمت یک خانه بر اساس محل، اندازه و غیره کمک کند.

رگرسیون خطی – این الگوریتم فرض می‌کند که یک رابطه خطی بین دو متغیر ورودی (X) و خروجی (Y) از داده‌هایی که از آنها آموخته است وجود دارد. متغیر ورودی را متغیر مستقل و متغیر خروجی را متغیر وابسته می نامند. هنگامی که داده‌های دیده نشده به الگوریتم ارسال می‌شوند، از تابع استفاده می‌کند، ورودی را محاسبه می‌کند و به یک مقدار پیوسته برای خروجی لحاظ می‌کند.

رگرسیون لجستیک – این الگوریتم مقادیر گسسته ای را برای مجموعه متغیرهای مستقلی که به آن ارسال شده است پیش بینی می کند. الگوریتم احتمال داده های جدید را پیش بینی می کند و بنابراین خروجی آن بین محدوده ۰ و ۱ قرار دارد.

variable

انواع رگرسیون:

انواع رگرسیون

۲. طبقه بندی (Classification)

این شامل گروه بندی داده ها به کلاس ها است. هنگامی که در طبقه بندی ، داده های ورودی را در دو کلاس مجزا برچسب گذاری می کشود، به آن طبقه بندی باینری می گویند. طبقه بندی چندگانه به معنای دسته بندی داده ها به بیش از دو کلاس است. خروجی یکی از کلاس ها خواهد بود و نه عددی که در رگرسیون بود. درختان تصمیم بر اساس مقادیر ویژگی طبقه بندی می شوند.
آنها از روش اطلاعات بدست آمده استفاده می کنند و متوجه می شوند که کدام ویژگی مجموعه داده بهترین اطلاعات را ارائه می دهد، آن را به عنوان گره ریشه می سازند تا زمانی که بتوانند هر نمونه از مجموعه داده را طبقه بندی کنند. هر شاخه در درخت تصمیم یک ویژگی از مجموعه داده را نشان می دهد. آنها یکی از پرکاربردترین الگوریتم ها برای طبقه بندی هستند.

2. طبقه بندی (Classification)

نایو بیز (Naive Bayesian Model)

مدل نایو بیز برای مجموعه بزرگی از داده ها استفاده می شود. این روشی برای تخصیص برچسب های کلاس با استفاده از یک گراف چرخه ای است. این الگوریتم فرض می کند که ویژگی های مجموعه داده همه مستقل از یکدیگر هستند. این نمودار شامل یک گره والد و چندین گره فرزند است. و هر گره فرزند مستقل و جدا از والد فرض می شود.

درخت تصمیم (Decision Trees)

درخت تصمیم یک مدل فلوچارت مانند است که شامل عبارات کنترل شرطی است که شامل تصمیمات و پیامدهای احتمالی آنها می شود. خروجی مربوط به برچسب گذاری داده های پیش بینی نشده است. در نمایش درختی، گره های برگ با برچسب های کلاس مطابقت دارند و گره های داخلی نشان دهنده ویژگی ها هستند. درخت تصمیم می تواند برای حل مسائل با ویژگی های گسسته و همچنین توابع بولی استفاده شود.

ماشین‌های بردار پشتیبان (SVM)

الگوریتم‌های SVM بر اساس تئوری یادگیری آماری هستند. آنها از توابع Kernal استفاده می کنند که یک مفهوم مرکزی برای اکثر وظایف یادگیری است. این الگوریتم ها یک ابر صفحه ایجاد می کنند که برای طبقه بندی دو کلاس از یکدیگر استفاده می شود.

نزدیک ترین همسایه(K-Nearest Neighbour )

یکی از ساده ترین الگوریتم های یادگیری ماشین بر اساس تکنیک یادگیری نظارت شده است. الگوریتم K-NN شباهت بین مورد/ داده جدید و موارد موجود را فرض می کند و مورد جدید را در دسته ای قرار می دهد که بیشترین شباهت را به دسته های موجود دارد. الگوریتم KNN در مرحله آموزش فقط مجموعه داده را ذخیره می کند و زمانی که داده های جدیدی دریافت می کند، آن داده ها را در دسته ای طبقه بندی می کند که بسیار شبیه به داده های جدید است.

نزدیک ترین همسایه(K-Nearest Neighbour )