داده کاوی

داده کاوی چیست؟

تکنولوژی‌های جدید اطلاعاتی و ارتباطی و همچنین فناوری‌های پشتیبان تصمیم، با جمع آوری، ذخیره، ارزیابی، تفسیر و تحلیل، بازیابی و اشاعه اطلاعات به کاربران خاص، می‌توانند در اطلاع یابی به موقع، صحیح و مورد نیاز به افراد تاثیر بسیار زیادی داشته باشند. یکی از ابزارهای مورد استفاده در این فناوری‌ها، داده کاوی می‌باشد. داده کاوی شامل استفاده از ابزارهای پیشرفته تحلیل داده به منظور کشف الگوهای معتبر و روابط در مجموعه داده‌های بزرگ است. این ابزارها، مدل‌های آماری، الگوریتم‌های ریاضی و متدهای یادگیری ماشین می‌باشد.

داده کاوی فراتر از جمع آوری و مدیریت داده است و شامل تجزیه و تحلیل و پیش گویی می‌شود. نام دیگر آن کشف دانش در پایگاه داده یا به اختصار KDD است.

مفاهیم داده کاوی

در دنیای به‌شدت رقابتی امروز، اطلاعات به‌عنوان یکی از فاکتورهای تولیدی مهم پدیدار شده است. در نتیجه تلاش برای استخراج اطلاعات از داده‌ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه‌های وابسته را به خود جلب نموده است.

حجم بالای داده‌های دائما در حال رشد در همه حوزه‌ها و نیز تنوع آن‌ها به شکل داده متنی، اعداد، گرافیک‌ها، نقشه‌ها نمایانگر پیچیدگی کار تبدیل داده‌ها به اطلاعات است.

علاوه بر این، تفاوت وسیع در فرآیندهای تولید داده مثل روش آنالوگ مبتنی بر کاغذ و روش دیجیتالی مبتنی بر کامپیوتر، مزید بر علت شده است.
استراتژی‌ها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد داده‌های موجود و رسیدن به نتایج معنی دار به‌کار گرفته شده‌اند.

پیشرفت‌های حاصله در علم اطلاع رسانی و تکنولوژی اطلاعات، فنون و ابزارهای جدیدی برای غلبه بر رشد مستمر و تنوع بانک‌های اطلاعاتی تامین می‌کنند. این پیشرفت‌ها هم در بعد سخت افزاری و هم نرم افزاری حاصل شده‌اند.
داده کاوی یکی از پیشرفت‌های اخیر در راستای فن آوری‌های مدیریت داده‌ها است.
داده کاوی مجموعه‌ای از فنون است که به شخص امکان می‌دهد تا ورای داده پردازی معمولی حرکت کند و به استخراج اطلاعاتی که در انبوه داده‌ها مخفی و یا پنهان است کمک می‌کند.
انگیزه برای گسترش داده کاوی به‌طور عمده از دنیای تجارت در دهه ۱۹۹۰ پدید آمد.

عناصر داده کاوی

توصیف و کمک به پیش بینی دو کارکرد اصلی داده کاوی هستند.
تحلیل داده مربوط به مشخصه‌های انتخابی متغیرها؛ از گذاشته و حال، و درک الگو مثالی از تحلیل توصیفی است.
برآورد ارزش آینده یک متغیر و طرح ریزی کردن روند مثالی از توانایی پیشگویانه داده کاوی است.
برای عملی شدن هر یک از دو کارکرد فوق الذکر داده کاوی، چند گام ابتدایی اما مهم باید اجرا شوند که از این قرارند:

۱. انتخاب داده‌ها
۲. پاک سازی داده‌ها  
۳. غنی سازی داده‌ها
۴. کد گذاری داده‌ها

با دارا بودن هدف کلی در مطالعه، انتخاب مجموعه داده‌های اصلی برای تحلیل، اولین ضرورت است. رکوردهای لازم می‌تواند از انبار داده‌ها و یا بانک اطلاعاتی عملیاتی استخراج شود. این رکوردهای داده جمع آوری شده؛ اغلب از آنچه آلودگی داده‌ها نامگذاری شده است رنج می‌برند و بنابراین لازم است پاکسازی شوند تا از یکدستی فرمت (شکلی) آن‌ها اطمینان حاصل شود، موارد تکراری حذف شده و کنترل سازگاری دامنه به‌ عمل آید.
ممکن است داده‌های گردآوری شده از جنبه‌های خاصی ناقص یا ناکافی باشند.
در این صورت داده‌های مشخصی باید گردآوری شوند تا بانک اطلاعات اصلی را تکمیل کنند. منابع مناسب برای این منظور باید شناسایی شوند.
این فرایند مرحله غنی سازی داده‌ها را تکمیل می‌کند. یک سیستم کدگذاری مناسب معمولا جهت انتقال داده‌ها به فرم ساختاربندی شده جدید؛ متناسب برای عملیات داده کاوی تعبیه می‌شود.

فنون داده کاوی

برخی از ابزارهای رایج به کار گرفته شده تحت عنوان داده کاوی عبارتند از:


ابزارهای پرس و جو: ابزارهای متداول زبان پرس و جوی ساختاربندی شده در ابتدا برای انجام تحلیل‌های اولیه به کار گرفته شدند که می‌تواند مسیرهایی برای تفحص بیشتر نشان دهد.  
 
فنون آماری: مشخصات اصلی داده‌ها لازمست با کاربرد انواع مختلفی از تحلیل‌های آماری شامل جدول بندی ساده و متقاطع داده‌ها و محاسبه پارامترهای آماری مهم بدست آید.
 
مصور سازی: با نمایش داده‌ها در قالب نمودارها و عکس‌ها مانند نمودار پراکندگی؛ گروه بندی داده‌ها در خوشه‌های متناسب تسهیل می‌شود. استنباط عمیق‌تر ممکن است با بکارگیری تکنیک‌های گرافیکی پیشرفته حاصل شود.
 
پردازش تحلیلی پیوسته: از آنجا که مجموعه داده‌ها ممکن است روابط چندین بعدی داشته باشند، روش‌های متعددی برای ترکیب کردن آن‌ها وجود دارد.

 یادگیری مبتنی بر مورد: این تکنیک مشخصات گروه‌های داده‌ها را تحلیل می‌کند و به پیش بینی هر نهاد واقع شده در همسایگی شان کمک می‌کند. الگوریتم‌هایی که استراتژی یادگیری تعاملی را برای کاوش در یک فضای چندین بعدی به کار می‌گیرند برای این منظور مفیدند.
 
درختان تصمیم گیری: این تکنیک بخش‌های مختلف فهرست پاسخ‌های موفق داده شده مربوط به یک پرس و جو را بازیابی می‌کند و به این ترتیب به ارزیابی صحیح گزینه‌های مختلف کمک می‌کند.
 
قوانین وابستگی: اغلب مشاهده می‌شود که یک وابستگی نزدیک (مثبت یا منفی) بین مجموعه‌ای از داده‌های معین وجود دارد. بنابراین قوانین رسمی وابستگی برای تولید الگوهای جدید ساخته و به کار گرفته می‌شوند.
 
شبکه‌های عصبی: این یک الگوریتم یادگیری ماشینی است که عملکرد خودش را بر اساس کاربرد و ارزیابی نتایج بهبود می‌بخشد.

 الگوریتم ژنتیکی: این هم تکنیک مفید دیگری برای پیش بینی هدف است. به این ترتیب که با یک گروه یا خوشه شروع می‌شود و رشدش در آینده را با حضور در برخی مراحل فرایند محاسبه احتمال

جهش تصادفی: همانطور که در تکامل طبیعی فرض می‌شود طرح ریزی می‌نماید. این تکنیک به چند روش می‌تواند عملی شودو ترکیب غیرقابل انتظار یا نادری را از عواملی که در حال وقوع بوده و مسیر منحنی طراحی داده‌ها را تغییر می‌دهند؛ منعکس می‌کند.

 گام نهایی فرایند داده کاوی، گزارش دادن است.
گزارش شامل تحلیل نتایج و کاربردهای پروژه، درصورت به‌کارگیری آن‌ها، است. و متن مناسب، جداول و گرافیک‌ها را در خود جای می‌دهد.

بیشتر اوقات گزارش دهی یک فرایند تعاملی است که تصمیم گیرنده با داده‌ها در پایانه کامپیوتری بازی می‌کند و فرم چاپی برخی نتایج واسطه محتمل را برای عملیات فوری بدست می‌آورد.

تعریف داده کاوی

تعریف‌های گوناگونی برای داده کاوی در متون آکادمیک ارائه شده که در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم بزرگی از داده‌ها می‌سازد معرفی گردیده است و در برخی دیگر، تعاریف دقیق‌تر که در آن‌ها به کاوش در داده‌ها توجه می‌شود موجود است.

برخی از این تعاریف عبارتند از:

داده کاوی به فرآیند استخراج اطلاعات معتبر و از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه داده‌های بزرگ و استفاده از آن در تصمیم گیری در فعالیت‌های تجاری مهم گفته می‌شود.

اصطلاح داده کاوی به فرآیند تجزیه و تحلیل پایگاه داده‌های بزرگ به منظور یافتن الگوهای مفید اطلاق می‌شود.

داده کاوی یعنی: جستجو در یک پایگاه داده‌ها برای یافتن الگوهایی میان داده‌ها.

داده کاوی یعنی: استخراج دانش کلان، قابل استناد و جدید از پایگاه داده‌های بزرگ.

داده کاوی یعنی: تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده‌ها .

همانطور که در تعاریف مختلف داده کاوی می‌بینیم، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش، تحلیل و یافتن الگوی بین داده‌ها اشاره شده است.

تاریخچه داده کاوی

اخیراً داده کاوی موضوع بسیاری از مقالات، کنفرانس‌ها و رساله‌های علمی بوده است، اما این واژه‌ها تا اوایل دهه نود مفهومی نداشت و به کار برده نمی‌شد.

در دهه شصت و قبل از آن زمینه‌هایی برای ایجاد سیستم‌های جمع آوری و مدیریت داده‌ها به وجود آمد و تحقیقاتی در این زمینه صورت گرفت که منجر به معرفی و ایجاد سیستم‌های مدیریت پایگاه داده‌ها گردید.

ایجاد مدل‌های داده‌ای و توسعه آن برای پایگاه شبکه‌ای، سلسله مراتبی و به خصوص رابطه‌ای در دهه هفتاد، منجر به معرفی مفاهیمی مانند شاخص گذاری و سازماندهی داده‌ها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرم‌های اطلاعاتی مورد نظر خود را، از این طریق ایجاد نمایند.

توسعه سیستم‌های پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاه‌های شی گرا، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردی شدن این سیستم‌ها در سراسر جهان گردید. به این ترتیب DBMS هایی همچون DB2 ،Oracle ،Sybase، … ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستم‌ها مورد پردازش قرار گرفتند. شاید بتوان مهم‌ترین جنبه در معرفی داده کاوی را مبحث کشف دانش از پایگاه داده‌ها (KDD) دانست به طوری که در بسیاری موارد DM و KDD به صورت مترادف مورد استفاده قرار می‌گیرند.

مفهوم داده کاوی برای نخستین بار توسط Shapir مطرح گردید. به دنبال آن در سال‌های ۱۹۹۱ تا ۱۹۹۴، کارگاه‌های KDD مفاهیم جدیدی را در این شاخه از علم ارائه کردند به طوری که بسیاری از مفاهیم با آن مرتبط گردیدند.

کاربردهای داده کاوی در محیط‌های واقعی

بانکداری:
پیش بینی الگوهای کلاهبرداری از طریق کارت‌های اعتباری
تشخیص مشتریان ثابت
تعیین میزان استفاده از کارت‌های اعتباری بر اساس گروه‌های اجتماعی

بیمه:
تجزیه و تحلیل دعاوی
پیشگویی میزان خرید بیمه نامه‌های جدید توسط مشتریان

خرده فروشی: یکی از کاربردهای کلاسیک داده کاوی است که می‌توان به موارد زیر اشاره کرد:

تعیین الگوهای خرید مشتریان
تجزیه و تحلیل سبد خرید بازار
پیشگویی میزان خرید مشتریان از طریق پست (فروش الکترونیکی)

پزشکی:
تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
تعیین میزان موفقیت روش‌های درمانی در برخورد با بیماری‌های سخت
مراحل فرآیند کشف دانش از پایگاه داده‌ها

فرآیند کشف دانش از پایگاه داده‌ها شامل پنج مرحله است که عبارتند از:
انبارش داده‌ها
انتخاب داده‌ها
تبدیل داده‌ها
کاوش در داده‌ها

تفسیر نتیجه:
همانطور که مشاهده می‌شود، داده کاوی یکی از مراحل این فرآیند است که به عنوان بخش چهارم آن نقش مهمی در کشف دانش از داده‌ها ایفا می‌کند.

انباره داده‌ها

وجود اطلاعات صحیح و منسجم یکی از ملزوماتی است که در داده کاوی به آن نیازمندیم. اشتباه و عدم وجود اطلاعات صحیح باعث نتیجه گیری غلط و در نتیجه اخذ تصمیمات ناصحیح در سازمان‌ها می‌گردد و منتج به نتایج خطرناکی خواهد گردید که نمونه‌های آن کم نیستند.
اکثر سازمان‌ها دچار یک خلا اطلاعاتی هستند. در این گونه سازمان‌ها معمولا سیستم‌های اطلاعاتی در طول زمان و با معماری و مدیریت‌های گوناگون ساخته شده‌اند، به طوری که سازمان اطلاعاتی یکپارچه و مشخصی مشاهده نمی‌گردد. علاوه بر این برای فرآیند داده کاوی به اطلاعات خلاصه و مهم در زمینه تصمیم گیری‌های حیاتی نیازمندیم.
هدف از فرآیند انبارش داده‌ها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است. در این فرآیند، اطلاعات تحلیلی و موجز در دوره‌های زمانی سازماندهی و ذخیره می‌شود تا بتوان از آن‌ها در فرآیندهای تصمیم گیری که از ملزومات آن داده کاوی است، استفاده شود. به طور کلی تعریف زیر برای انبار داده‌ها ارائه می‌گردد:
انبار داده‌ها، مجموعه‌ای است موضوعی، مجتمع، متغیر در زمان و پایدار از داده‌ها که به منظور پشتیبانی از فرآیند مدیریت تصمیم گیری مورد استفاده قرار می‌گیرد.

انتخاب داده‌ها

انبار داده‌ها شامل انواع مختلف و گوناگونی از داده است که همه آن‌ها در داده کاوی مورد نیاز نیستند. برای فرآیند داده کاوی باید داده‌های مورد نیاز انتخاب شوند. به عنوان مثال در پایگاه داده‌های مربوط به سیستم فروشگاهی، اطلاعاتی در مورد خرید مشتریان، خصوصیات آماری آن‌ها، تامین کنندگان، خرید، حسابداری و … وجود دارند. برای تعیین نحوه چیدن قفسه‌ها تنها به داده‌هایی در مورد خرید مشتریان و خصوصیات آماری آن‌ها نیاز است. حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه نیست، بلکه ممکن است به منظور کاهش هزینه عملیات، نمونه‌هایی از عناصر انتخاب و کاوش شوند.

تبدیل داده‌ها

زمانی که داده‌های مورد نیاز انتخاب شدند و داده‌های مورد کاوش مشخص گردیدند، معمولا به تبدیلات خاصی روی داده‌ها نیاز است. نوع تبدیل به عملیات و تکنیک داده کاوی مورد استفاده بستگی دارد. تبدیلاتی ساده همچون تبدیل نوع داده‌ای به نوع دیگر تا تبدیلات پیچیده‌تر همچون تعریف صفات جدید با انجام عملیات‌های ریاضی و منطقی روی صفات موجود.

کاوش در داده‌ها

داده‌های تبدیل شده با استفاده از تکنیک‌ها و عملیات‌های داده کاوی مورد کاوش قرار می‌گیرند تا الگوهای مورد نظر کشف شوند.