داده کاوی یا Data Mining فرآیندی است که در آن از الگوریتم ها و تکنیک های آماری برای استخراج اطلاعات مفید از مجموعه داده های بزرگ استفاده می شود. این اطلاعات می تواند برای تصمیم گیری، پیش بینی، بازاریابی، و بسیاری از کاربردهای دیگر استفاده شود.
در دنیای امروز، اطلاعات به مثابه گنجی پنهان در انبوهی از دادههاست. گنجی که میتواند رازهای موفقیت در کسب و کار، پیشرفت در علم و تکنولوژی و ارتقای کیفیت زندگی را به ما فاش کند. اما استخراج این گنج به تنهایی کار آسانی نیست. در اینجا است که دادهکاوی به عنوان کلیدی جادویی، قفل دروازه این گنجینه را میگشاید و دریچهای به سوی دنیایی از بینشها و فرصتهای نو را به روی ما میگشاید.
داده کاوی چیست؟
دادهکاوی، فرآیندی است که به استخراج دانش و اطلاعات باارزش از حجم عظیمی از دادهها میپردازد. این فرآیند با استفاده از الگوریتمها و تکنیکهای آماری پیشرفته، روابط و الگوهای پنهان در دادهها را آشکار میکند و اطلاعاتی را به ارمغان میآورد که با چشم غیرمسلح قابل مشاهده نیستند.
تکنولوژیهای جدید اطلاعاتی و ارتباطی و همچنین فناوریهای پشتیبان تصمیم، با جمع آوری، ذخیره، ارزیابی، تفسیر و تحلیل، بازیابی و اشاعه اطلاعات به کاربران خاص، میتوانند در اطلاع یابی به موقع، صحیح و مورد نیاز به افراد تاثیر بسیار زیادی داشته باشند. یکی از ابزارهای مورد استفاده در این فناوریها، داده کاوی میباشد. داده کاوی شامل استفاده از ابزارهای پیشرفته تحلیل داده به منظور کشف الگوهای معتبر و روابط در مجموعه دادههای بزرگ است. این ابزارها، مدلهای آماری، الگوریتمهای ریاضی و متدهای یادگیری ماشین میباشد.
داده کاوی فراتر از جمع آوری و مدیریت داده است و شامل تجزیه و تحلیل و پیش گویی میشود. نام دیگر آن کشف دانش در پایگاه داده یا به اختصار KDD است.
مفاهیم داده کاوی
در دنیای بهشدت رقابتی امروز، اطلاعات بهعنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از دادهها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزههای وابسته را به خود جلب نموده است.
حجم بالای دادههای دائما در حال رشد در همه حوزهها و نیز تنوع آنها به شکل داده متنی، اعداد، گرافیکها، نقشهها نمایانگر پیچیدگی کار تبدیل دادهها به اطلاعات است.
علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است.
استراتژیها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد دادههای موجود و رسیدن به نتایج معنی دار بهکار گرفته شدهاند.
پیشرفتهای حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانکهای اطلاعاتی تامین میکنند. این پیشرفتها هم در بعد سخت افزاری و هم نرم افزاری حاصل شدهاند.
داده کاوی یکی از پیشرفتهای اخیر در راستای فن آوریهای مدیریت دادهها است.
داده کاوی مجموعهای از فنون است که به شخص امکان میدهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه دادهها مخفی و یا پنهان است کمک میکند.
انگیزه برای گسترش داده کاوی بهطور عمده از دنیای تجارت در دهه ۱۹۹۰ پدید آمد.
عناصر داده کاوی
توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند.
تحلیل داده مربوط به مشخصههای انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است.
برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.
برای عملی شدن هر یک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند:
- انتخاب دادهها
- پاک سازی دادهها
- غنی سازی دادهها
- کد گذاری دادهها
با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه دادههای اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم میتواند از انبار دادهها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی دادهها نامگذاری شده است رنج میبرند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آنها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه به عمل آید.
ممکن است دادههای گردآوری شده از جنبههای خاصی ناقص یا ناکافی باشند.
در این صورت دادههای مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند.
این فرایند مرحله غنی سازی دادهها را تکمیل میکند. یک سیستم کدگذاری مناسب معمولا جهت انتقال دادهها به فرم ساختاربندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه میشود.
فنون داده کاوی
برخی از ابزارهای رایج به کار گرفته شده تحت عنوان داده کاوی عبارتند از:
ابزارهای پرس و جو:
ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیلهای اولیه به کار گرفته شدند که میتواند مسیرهایی برای تفحص بیشتر نشان دهد.
فنون آماری:
مشخصات اصلی دادهها لازمست با کاربرد انواع مختلفی از تحلیلهای آماری شامل جدول بندی ساده و متقاطع دادهها و محاسبه پارامترهای آماری مهم بدست آید.
مصور سازی:
با نمایش دادهها در قالب نمودارها و عکسها مانند نمودار پراکندگی؛ گروه بندی دادهها در خوشههای متناسب تسهیل میشود. استنباط عمیقتر ممکن است با بکارگیری تکنیکهای گرافیکی پیشرفته حاصل شود.
پردازش تحلیلی پیوسته:
از آنجا که مجموعه دادهها ممکن است روابط چندین بعدی داشته باشند، روشهای متعددی برای ترکیب کردن آنها وجود دارد.
یادگیری مبتنی بر مورد:
این تکنیک مشخصات گروههای دادهها را تحلیل میکند و به پیش بینی هر نهاد واقع شده در همسایگی شان کمک میکند. الگوریتمهایی که استراتژی یادگیری تعاملی را برای کاوش در یک فضای چندین بعدی به کار میگیرند برای این منظور مفیدند.
درختان تصمیم گیری:
این تکنیک بخشهای مختلف فهرست پاسخهای موفق داده شده مربوط به یک پرس و جو را بازیابی میکند و به این ترتیب به ارزیابی صحیح گزینههای مختلف کمک میکند.
قوانین وابستگی:
اغلب مشاهده میشود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعهای از دادههای معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و به کار گرفته میشوند.
شبکههای عصبی:
این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود میبخشد.
الگوریتم ژنتیکی:
این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع میشود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال
جهش تصادفی:
همانطور که در تکامل طبیعی فرض میشود طرح ریزی مینماید. این تکنیک به چند روش میتواند عملی شودو ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی دادهها را تغییر میدهند؛ منعکس میکند.
گام نهایی فرایند داده کاوی، گزارش دادن است.
گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت بهکارگیری آنها، است. و متن مناسب، جداول و گرافیکها را در خود جای میدهد.
بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با دادهها در پایانه کامپیوتری بازی میکند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست میآورد.
تعریف داده کاوی
تعریفهای گوناگونی برای داده کاوی در متون آکادمیک ارائه شده که در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم بزرگی از دادهها میسازد معرفی گردیده است و در برخی دیگر، تعاریف دقیقتر که در آنها به کاوش در دادهها توجه میشود موجود است.
برخی از این تعاریف عبارتند از:
داده کاوی به فرآیند استخراج اطلاعات معتبر و از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه دادههای بزرگ و استفاده از آن در تصمیم گیری در فعالیتهای تجاری مهم گفته میشود.
اصطلاح داده کاوی به فرآیند تجزیه و تحلیل پایگاه دادههای بزرگ به منظور یافتن الگوهای مفید اطلاق میشود.
داده کاوی یعنی:
- جستجو در یک پایگاه دادهها برای یافتن الگوهایی میان دادهها.
- استخراج دانش کلان، قابل استناد و جدید از پایگاه دادههای بزرگ.
- تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین دادهها.
همانطور که در تعاریف مختلف داده کاوی میبینیم، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش، تحلیل و یافتن الگوی بین دادهها اشاره شده است.
تاریخچه داده کاوی:
اخیراً داده کاوی موضوع بسیاری از مقالات، کنفرانسها و رسالههای علمی بوده است، اما این واژهها تا اوایل دهه نود مفهومی نداشت و به کار برده نمیشد.
در دهه شصت و قبل از آن زمینههایی برای ایجاد سیستمهای جمع آوری و مدیریت دادهها به وجود آمد و تحقیقاتی در این زمینه صورت گرفت که منجر به معرفی و ایجاد سیستمهای مدیریت پایگاه دادهها گردید.
ایجاد مدلهای دادهای و توسعه آن برای پایگاه شبکهای، سلسله مراتبی و به خصوص رابطهای در دهه هفتاد، منجر به معرفی مفاهیمی مانند شاخص گذاری و سازماندهی دادهها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرمهای اطلاعاتی مورد نظر خود را، از این طریق ایجاد نمایند.
توسعه سیستمهای پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاههای شی گرا، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردی شدن این سیستمها در سراسر جهان گردید. به این ترتیب DBMS هایی همچون DB2 ،Oracle ،Sybase، … ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستمها مورد پردازش قرار گرفتند. شاید بتوان مهمترین جنبه در معرفی داده کاوی را مبحث کشف دانش از پایگاه دادهها (KDD) دانست به طوری که در بسیاری موارد DM و KDD به صورت مترادف مورد استفاده قرار میگیرند.
مفهوم داده کاوی برای نخستین بار توسط Shapir مطرح گردید. به دنبال آن در سالهای ۱۹۹۱ تا ۱۹۹۴، کارگاههای KDD مفاهیم جدیدی را در این شاخه از علم ارائه کردند به طوری که بسیاری از مفاهیم با آن مرتبط گردیدند.
کاربردهای دادهکاوی
کاربردهای دادهکاوی بسیار گسترده و متنوع است. از کشف تقلب در تراکنشهای مالی گرفته تا پیشبینی رفتار مشتریان و تعیین کمپینهای تبلیغاتی هدفمند، ردپای دادهکاوی را میتوان در عرصههای مختلف مشاهده کرد.
در اینجا به برخی از کاربردهای برجسته دادهکاوی اشاره میکنیم:
- بازاریابی و فروش: شناسایی مشتریان بالقوه، تحلیل سبد خرید، شخصیسازی پیشنهادات، افزایش وفاداری مشتریان
- امور مالی: تشخیص تقلب، مدیریت ریسک، پیشبینی بازار
- تولید: بهینهسازی فرآیند تولید، پیشبینی خرابی دستگاهها، کنترل کیفیت
- مراقبتهای بهداشتی: تشخیص بیماری، تجویز دارو، شخصیسازی درمان
- جرم شناسی: پیشگیری از جرم، شناسایی مجرمان، کشف الگوهای جرم
کاربردهای داده کاوی در محیط های واقعی
بانکداری:
- پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری
- تشخیص مشتریان ثابت
- تعیین میزان استفاده از کارتهای اعتباری بر اساس گروههای اجتماعی
بیمه:
- تجزیه و تحلیل دعاوی
- پیشگویی میزان خرید بیمه نامههای جدید توسط مشتریان
خرده فروشی:
یکی از کاربردهای کلاسیک داده کاوی است که میتوان به موارد زیر اشاره کرد:
- تعیین الگوهای خرید مشتریان
- تجزیه و تحلیل سبد خرید بازار
- پیشگویی میزان خرید مشتریان از طریق پست (فروش الکترونیکی)
پزشکی:
- تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
- تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت
- مراحل فرآیند کشف دانش از پایگاه دادهها
فرآیند کشف دانش از پایگاه دادهها شامل پنج مرحله است که عبارتند از:
- انبارش دادهها
- انتخاب دادهها
- تبدیل دادهها
- کاوش در دادهها
تفسیر نتیجه:همانطور که مشاهده میشود، داده کاوی یکی از مراحل این فرآیند است که به عنوان بخش چهارم آن نقش مهمی در کشف دانش از دادهها ایفا میکند.
انباره داده ها:
وجود اطلاعات صحیح و منسجم یکی از ملزوماتی است که در داده کاوی به آن نیازمندیم. اشتباه و عدم وجود اطلاعات صحیح باعث نتیجه گیری غلط و در نتیجه اخذ تصمیمات ناصحیح در سازمانها میگردد و منتج به نتایج خطرناکی خواهد گردید که نمونههای آن کم نیستند.
اکثر سازمانها دچار یک خلا اطلاعاتی هستند. در این گونه سازمانها معمولا سیستمهای اطلاعاتی در طول زمان و با معماری و مدیریتهای گوناگون ساخته شدهاند، به طوری که سازمان اطلاعاتی یکپارچه و مشخصی مشاهده نمیگردد. علاوه بر این برای فرآیند داده کاوی به اطلاعات خلاصه و مهم در زمینه تصمیم گیریهای حیاتی نیازمندیم.
هدف از فرآیند انبارش دادهها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است. در این فرآیند، اطلاعات تحلیلی و موجز در دورههای زمانی سازماندهی و ذخیره میشود تا بتوان از آنها در فرآیندهای تصمیم گیری که از ملزومات آن داده کاوی است، استفاده شود. به طور کلی تعریف زیر برای انبار دادهها ارائه میگردد:
انبار دادهها، مجموعهای است موضوعی، مجتمع، متغیر در زمان و پایدار از دادهها که به منظور پشتیبانی از فرآیند مدیریت تصمیم گیری مورد استفاده قرار میگیرد.
انتخاب داده ها
انبار دادهها شامل انواع مختلف و گوناگونی از داده است که همه آنها در داده کاوی مورد نیاز نیستند. برای فرآیند داده کاوی باید دادههای مورد نیاز انتخاب شوند. به عنوان مثال در پایگاه دادههای مربوط به سیستم فروشگاهی، اطلاعاتی در مورد خرید مشتریان، خصوصیات آماری آنها، تامین کنندگان، خرید، حسابداری و … وجود دارند. برای تعیین نحوه چیدن قفسهها تنها به دادههایی در مورد خرید مشتریان و خصوصیات آماری آنها نیاز است. حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه نیست، بلکه ممکن است به منظور کاهش هزینه عملیات، نمونههایی از عناصر انتخاب و کاوش شوند.
تبدیل داده ها
زمانی که دادههای مورد نیاز انتخاب شدند و دادههای مورد کاوش مشخص گردیدند، معمولا به تبدیلات خاصی روی دادهها نیاز است. نوع تبدیل به عملیات و تکنیک داده کاوی مورد استفاده بستگی دارد. تبدیلاتی ساده همچون تبدیل نوع دادهای به نوع دیگر تا تبدیلات پیچیدهتر همچون تعریف صفات جدید با انجام عملیاتهای ریاضی و منطقی روی صفات موجود.
کاوش در داده ها
دادههای تبدیل شده با استفاده از تکنیکها و عملیاتهای داده کاوی مورد کاوش قرار میگیرند تا الگوهای مورد نظر کشف شوند.
مزایای داده کاوی
داده ها هر روز از مجموعه ای خیره کننده از منابع، در قالب های متعدد و با سرعت و حجم بی سابقه به کسب و کار شما سرازیر می شوند. تصمیم گیری در مورد این که آیا یک تجارت مبتنی بر داده باشد یا نه دیگر یک گزینه نیست. موفقیت کسب و کار شما بستگی به این دارد که چقدر سریع بتوانید بینش های کلان داده را کشف کنید و آنها را در تصمیمات و فرآیندهای تجاری بگنجانید تا اقدامات بهتری را در سراسر شرکت خود انجام دهید. با این حال، وجود داده های زیادی برای مدیریت، می تواند یک کار غیرقابل حل به نظر برسد.
دادهکاوی به کسبوکارها فرصتی میدهد تا با درک گذشته و حال و انجام پیشبینیهای دقیق در مورد آنچه در آینده اتفاق میافتد، عملیات را برای محتملترین آینده بهینه کنند.
داده کاوی با افزایش پتانسیل کشف الگوها، روندها، همبستگی ها و ناهنجاری ها در مجموعه داده ها، مزایای تجاری را فراهم می کند. ترکیبی از تجزیه و تحلیل داده های مرسوم و پیش بینی ممکن است برای بهبود تصمیم گیری تجاری و برنامه ریزی استراتژیک استفاده شود.