داده‌های عظیم

داده‌های عظیم

۱. مقدمه

با گسترش روز افزون استفاده از خدمات فناوری اطلاعات و همچنین فراگیر شدن ابزارهای دیجیتالی، هر فرد به واسطه حضور خود در فضای مجازی باعث تولید حجم زیادی از داده‌ها می‌شود. این داده‌ها می‌تواند در دو دسته بندی کلی قرار بگیرد، یک قسمت اطلاعاتی است که انسان آن را تولید کرده و قسمت بعدی اطلاعاتی است که توسط ماشین‌های مختلف (همانند مسیریاب‌ها، دوربین‌های مدار بسته، حسگرهای مختلف و …) در حال تولید است.

۱-۱-۱- تعریف داده‌های عظیم (Big data)

اگر بخواهیم معادلی فارسی برای ‘ Big Data ‘ در نظر بگیریم می‌توان به ‘ داده های عظیم ‘، ‘ کلان داده ‘ یا ‘ حجیم داده ‘ اشاره نمود که در مفهوم هیچ اختلافی با یکدیگر ندارند. کلان داده به حجم عظیمی از داده‌ها اطلاق می‌شود که پردازش آن‌ها به وسیله پایگاه داده‌های سنتی و ابزارهای آن غیرقابل انجام بوده و شامل انواع مختلفی از داده‌های چند رسانه‌ای، متن و … می‌شود که به شکل غیرقابل تصوری حجم آن در حال افزایش است. البته تشخیص وجه تمایز یک مجموعه اطلاعاتی که آن را کلان داده نامگذاری می‌کنیم و یک سیستم اطلاعاتی حجیم که ظاهراً شرایط آن را دارد بسیار مهم است. برای مثال یک سامانه داده‌ای که تمامی اطلاعات مردم ایران را در خود ذخیره می‌کند (نام، نام خانوادگی، شماره ملی و …) نمی‌تواند کلان داده به‌شمار آید در صورتی که ظاهراً حجم بالایی از اطلاعات را در دل خود دارد. در بیشتر منابع و مقالات برای کلان داده سه ویژگی بیان شده است: حجم، گوناگونی و سرعت که اصطلاحاً به آن  ۳Vs  نیز می‌گویند. البته در منابعی دیگر علاوه بر سه ویژگی اصلی گفته شده مقدار داده و پیچیدگی داده را نیز به ویژگی‌های آن اضافه کرده‌اند. اما واضح است در صورتی که یک محیط جریان اطلاعاتی یا یک شبکه بتواند هر سه مورد نام برده شده را احراز کند به آن مجموعه کلان داده گفته می‌شود. 

الف) حجم داده

شاید مهم‌ترین ویژگی کلان داده را بتوان حجم عظیم داده بر شمرد، امروزه شرکت‌های صاحب نام در عرصه فناوری اطلاعات خصوصا شبکه‌های اجتماعی به تنهایی می‌توانند روزانه ۵۰۰ ترابایت اطلاعات جدید تولید کنند، به عنوان مثال سرویس اشتراک ویدئوی گوگل در هر دقیقه بیش از ۱۰۰ ساعت ویدئو بارگذاری شده توسط کاربران خود را دریافت و مدیریت می‌کند.

ب) گوناگونی داده

اطلاعات مربوط به حسگرهای مختلف، تلفن‌های هوشمند، ارتباطات در شبکه‌های اجتماعی، دارای تنوع بالایی بوده و اطلاعاتی که به صورت ساختاری و بدون ساختار ذخیره می‌شوند از نظر گوناگونی بسیار پیچیده هستند، زیرا تمام این اطلاعات در پایگاه داده‌های رابطه‌ای سنتی ذخیره نشده است. علاوه بر این داده‌ها خام، نیمه ساختاری و یا کاملاً بدون ساختار است. به عنوان مثال ایمیل‌های ارسالی و دریافتی، اطلاعات شبکه‌های اجتماعی و … همگی از نمونه‌های اطلاعات بدون ساختار است زیرا هیچ قالب از پیش تعیین شده‌ای برای ورود اطلاعات ندارند . 

ج) سرعت داده

سرعت داده به این معنی است که داده‌ها از طریق منابع اطلاعاتی مختلف با سرعت بسیار بالایی تولید و منتقل می‌شوند، برای مثال سرعت تولید داده توسط حسگرهای RFID در یک مجموعه بسیار بالا بوده که علاوه بر ذخیره سازی این اطلاعات در لحظه، باید اطلاعات مورد تجزیه و تحلیل نیز قرار بگیرند. واضح است سیستم‌های سنتی ذخیره سازی و تحلیل اطلاعات به سادگی نمی‌توانند این جریان از اطلاعات را به صورت بلادرنگ مورد بررسی و نمایش قرار دهند.

۱-۱-۲- منشا داده‌های عظیم

تا سال ۲۰۰۳ میلادی ۵ اگزا بایت (معادل ۵ میلیارد گیگابایت) اطلاعات توسط انسان تولید شده بود. اما امروزه این حجم از داده تنها در دو روز توسط انسان تولید می‌شود. شرکت IBM در گزارش خود اعلام کرد هر روز ۲.۵ اگزا بایت اطلاعات به داده‌های دنیا افزوده می‌شود و ۹۰ درصد مقدار اطلاعاتی که در حال حاضر در دست داریم فقط در دو سال گذشته تولید شده است. (۲۰۱۲,singh) ابزار و فناوری‌های مختلفی که در دسترس انسان امروزی قرار دارد، از دوربین و میکروفون و تلسکوپ و گوشی تلفن گرفته تا شبکه‌های بی‌سیم و ماهواره‌ای همگی در حال تولید اطلاعات و افزایش حجم داده‌های عظیم هستند. برآوردها نشان می‌دهد هم اکنون ۴.۶ میلیارد گوشی موبایل در سراسر جهان وجود دارد و حدود ۱ تا ۲ میلیارد نفر هم به اینترنت دسترسی دارند. تعداد افرادی که امروزه با داده‌ها و اطلاعات سر و کار دارند به مراتب بیشتر از گذشته است. تعدادی از مواردی که به عنوان منشا داده‌های عظیم می‌توان از آن‌ها نام برد عبارت است از:
• شبکه و رسانه‌های اجتماعی
• اینترنت اشیا
• کاربردهای ICT در بخش‌های مختلف 
• توسعه دسترسی نسل‌های جدید به موبایل
• توسعه خدمات نوین بانکی

۱-۱-۳- اهمیت و کاربرد کلان داده

دولت آمریکا اعلام نمود تا سال ۲۰۱۲ بر روی زمینه‌های کاربردی کلان داده در حوزه سلامت، امنیت فضای مجازی، نظامی و دفاعی، انرژی و فعالیت‌های تحقیقاتی مرتبط بیش از ۲۰۰ میلیون دلار هزینه نموده و نتایج آن را در جهت بهبود تصمیم گیری و سیاستگذاری در زمینه‌های نام برده شده به کار گرفته است. در واقع هدف اصلی سرمایه گذاران و سازمان‌ها در زمینه کلان داده و کاربردهای آن تصمیم گیری دقیق و صحیح از طریق تحلیل حجم بیشتر داده‌ها است. روش‌های تجزیه تحلیل کلان داده زمانی قدرت خود را نسبت به الگوریتم‌های داده کاوی و یا سیستم‌های پرس و جوی پیشرفته در پایگاه داده‌های رابطه‌ای سنتی نمایان می‌سازد که مجموعه‌ای از داده‌های ساختاری، نیمه ساختاری و بدون ساختار از منابع مختلف اطلاعاتی وارد سیستم شود. در ادامه با چند مورد از کاربردهای کلان داده در کسب و کار، اقتصاد و … بیشتر آشنا می‌شویم.

الف ) فناوری اطلاعات

از مهم‌ترین موقعیت‌های کاربردی کلان داده در عرصه فناوری اطلاعات می‌توان به تجزیه و تحلیل وقایع شبکه در جهت کشف خطا و یا کشف نفوذ به شبکه اشاره نمود.

ب) اقتصاد و کسب و کار

شاید با ارزش‌ترین کاربرد تحلیل کلان داده از نظر اقتصادی در حوزه کسب و کار باشد، در جایی که با حجم عظیمی از اطلاعات مشتریان و تراکنش‌های خرید آن‌ها مواجه هستیم. در ادامه برخی کسب و کارهایی که می‌توانند مولد داده‌های عظیم باشند و از تحلیل آن‌ها متاثر شوند نام برده می‌شوند.

بازاریابی و فروش 

با تجزیه و تحلیل مناسب داده‌های مشتریان می‌توان سیاست‌ها و راهکارهای مناسب جهت افزایش فروش و بازاریابی دقیق را به کار برد. برای مثال می‌توان با تجزیه و تحلیل اطلاعات مربوط به سبد خرید مشتریان، تنظیم قیمت صحیح محصول در جهت فروش بیشتر، طراحی محل قرارگیری محصولات در فروشگاه با توجه به اطلاعات آماری حرکت خریداران، کشف راهکارهای ترغیب مشتری در خرید مجدد از فروشگاه، مدیریت زنجیره عرضه تقسیم بندی مشتریان، پیشنهاد دقیق کالا در زمان مناسب به مشتری و . . . اشاره نمود.

اقتصاد و بانکداری

در زمینه اقتصاد و فعالیت‌های بانکی نیز می‌توان با آنالیز داده‌ها، میزان ریسک مرتبط با یک طرح را پیش بینی نمود و یا سوء استفاده از کارت‌های اعتباری مشتریان را با تشخیص الگوی شک بر انگیز در استفاده از کارت اعتباری مشخص نمود. کشف نفوذ و یا تقلب، کلاهبرداری و یا پولشویی، با استفاده از تجزیه و تحلیل تراکنش‌های مالی مشتریان با دیگر منابع اطلاعاتی نیز، امروزه بسیار کاربردی شده است.

تجارت اجتماعی

یکی از بسترهای مولد داده‌های عظیم تجارت اجتماعی است. در تجارت اجتماعی، فعالیت‌های تجاری و غیرتجاری در اجتماعات و بازارهای online صورت می‌گیرد. تجارت اجتماعی بستری است شامل فعالیت‌های خرید و فروش و تعاملات وابسته به آن، که منجر به در نظر گرفتن همزمان مشتریان و فروشندگان می‌شود. این نوع از تجارت از فرآیند تصمیم گیری مشتری و رفتار خرید وی حمایت می‌کند.

ج) زندگی و سلامت

از کاربردهای تحلیل کلان داده در زمینه بیمه و سلامت می‌توان به بالا بردن کیفیت نگهداری از بیماران و بهبود برنامه نگهداری آنان اشاره نمود. تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی، تعیین میزان موفقیت روش‌های درمانی در برخورد با بیماری‌های سخت، تشخیص بیماری‌ها براساس انواع اطلاعات (تصاویر پزشکی، مشخصات بیمار احتمالی)، تأثیر داروها بر روند بهبودی بیماران و بررسی الگوهای مختلف ایجادکننده امراض در افراد و …از جمله مواردی است که توسط داده‌های عظیم محقق می‌گردد.

د) شبکه‌های اجتماعی

یکی از کاربردی‌ترین زمینه‌های کلان داده و تحلیل آن در شبکه‌های اجتماعی نمایان می‌شود. شبکه‌های اجتماعی چندی است که به صورت فراگیر در بین عموم جامعه، از فضاهای خصوصی گرفته تا بخش‌های عمومی اجتماع، رسوخ کرده‌اند. شبکه‌های اجتماعی بسیار به روز و در تعامل با بدنه اصلی جامعه هستند. کانال توزیعی که به هیچ عنوان در دنیای قبل از این رسانه‌ها وجود نداشت.

بررسی نظرات افراد در مورد یک محصول و بهینه سازی آن در جهت رسیدن به فروش بالاتر، بهینه سازی کالای پیشنهادی در موتورهای جستجو با توجه به لیست علاقه مندی‌های فرد در شبکه اجتماعی وی، پیش بینی برنده انتخابات با استفاده از تجزیه و تحلیل نظرات کاربران در شبکه‌های اجتماعی از مهم‌ترین کاربردهای کلان داده در شبکه‌های اجتماعی است. حال که این شبکه توزیع رایگان در اختیار شرکت‌ها قرار گرفته است، صاحبین این جوامع مجازی در راستای بهره‌وری هرچه بیشتر از این رسانه‌ها در جهت تامین منافعشان تلاش می‌کنند. پیش از این همیشه صحبت از لو رفتن اطلاعات خصوصی اشخاص در فضاهایی مانند فیس بوک بوده است. ولی با تحولات کلان داده بسیار می‌توان پا را فراتر گذاشت و به اطلاعات جمعی اشخاص و جوامع که خودشان نیز دسترسی ندارند، رسید. به عبارتی علاوه بر رد و بدل شدن اطلاعات، بخشی از هویت جوامع نیز در حال شکل گرفتن است و این فرهنگ را می‌توان به تمامی بخش‌های اجتماع تسری داد. فیس بوک اعلام کرده است برای هر کاربر به صورت متوسط در هر روز ۱۵۰۰ مطلب جدید از دوستان و مطالب مورد علاقه، برای مشاهده دارد. ولی اکثر کاربران وقت کافی برای مرور این همه مطلب ندارند. لذا با هوشمندی فیس بوک وارد کار می‌شود. با فیلتر کردن مطالب دلخواه افراد و نشان دادن مطالبی که می‌خواهد از بین مطالب جدید هر شخص، می‌تواند به عنوان شبکه‌ای برای جهت دهی افکار و تبلیغات هوشمند عمل کند. کلان داده این امکان را فراهم ساخته است که فیس بوک علایق اشخاص را با توجه به مطالبی که به عنوان دلخواه انتخاب می‌کنند و مطالبی که منتشر می‌کنند، استخراج کند. در نتیجه دریایی از اطلاعات مفید برای یافتن مشتریان هدف شرکت‌ها در دسترس دارد. پس از ایجاد جریان‌های درآمد زایی جدید، کلان داده مسیر جدیدی نیز به اجبار پیش روی این شبکه‌ها قرار داده است. این شبکه‌ها جریان‌های فوق العاده درآمد زایی را با استفاده از کلان داده ایجاد کرده‌اند، حال آن که روش‌های بسیار بهتری برای به دست آوردن این اطلاعات پیدا شده است و آن اپلیکیشن‌های پیامی مانند واتس آپ هستند. در حقیقت جریان درآمدزایی اصلی این شبکه‌ها تبلیغات و رسانه بودن آن‌ها است. از این رو با این محوریت تکنولوژی ابعاد جدیدی از خود را نمایان ساخته است. 

۱-۱-۴- ابزارها و روش‌های موجود

در گذشته اگر سازمان‌ها با حجم عظیمی از داده‌ها بر روی پایگاه داده رابطه‌ای خود مواجه می‌گشتند، به منظور نگهداری و تحلیل اطلاعات مجبور بودند از یک ابر رایانه و یا انباره داده‌ای استفاده کند. ضعف پایگاه داده‌های رابطه‌ای در نگهداری و تجزیه و تحلیل حجم عظیمی از داده‌های نیمه ساختاری و بدون ساختار نمایان گشت و دانشمندان با مطرح کردن فناوری جدیدی به نام No SQL اقدام به ساخت نسل جدیدی از پایگاه‌های داده‌ای که می‌تواند حجم عظیمی از اطلاعات را نگهداری و پردازش کند، نمودند. زمینه‌هایی که این پایگاه‌های داده‌ای مناسب آن‌ها هستند و از خود شایستگی بیشتری در آن‌ها نشان می‌دهند، به ترتیب در ادامه آورده شده‌اند:  
• داده‌های با توالی نوشتن بالا و توالی خواندن کم: همانند شمارنده‌های بازدید صفحات وب، دستگاه‌های وقایع‌نگار یا تلسکوپ‌های فضایی. 
• داده‌های با توالی خواندن بالا و توالی نوشتن بسیار‌کم: همانند داده‌های ‌گذرا و کش شده‌ای از تصاویر، اسناد کاربردهای نیازمند دسترس پذیری بالا و با توقف خدمات بسیار ‌کم
• داده‌هایی که باید در نقاط مختلف جغرافیایی با هم همگام‌سازی شوند: مانند داده‌هایی که در کلاسترهای مختلف یک شبکه بزرگ‌ سازمانی با دفاتر مختلف پراکنده در سطح جغرافیایی وسیع موجودند و نیاز است تا همواره و با بالاترین سرعت و کمترین هزینه ممکن با هم همگام سازی شوند.
• داده‌های بزرگ تجاری یا مرتبط با تحلیل وب که شمای خاصی ندارند: چنین داده‌هایی تقریباً شکل و قالب از پیش تعیین شده‌ای ندارند و بر‌اساس محتوای متغیر موجود روی وب تولید می‌شوند و در بیشتر موارد به فعالیت‌ کاربران و سیستم‌های نرم‌افزاری مرتبط وابسته ‌هستند. 

اولین و مهم ترین مزایای پایگاه‌های داده NoSQL عدم طراحی شمای (الگو) خاص برای داده‌ها است. در این سیستم داده‌های ورودی می‌تواند هر موقع تغییر نوع پیدا کرده و سیستم باید خودش را با آن مطابق کند. دومین مزیت قابلیت چند بخشی شدن خودکار و تشخیص هوشمند یکپارچگی است. در مدل‌های سنتی، SQL، طراح باید چند سرور بودن را در طراحی خود حتما لحاظ می‌کرد و بر طبق آن شمای پایگاه داده را پیاده سازی می‌کرد ولی در سیستم NoSQL چند سرور بودن بخاطر هوشمندی و بالا بودن سطح سیستم هیچ مانعی برای ادامه کار ندارد. سومین مزیت وجود Cache برای افزایش سرعت بازیابی اطلاعات می‌باشد که همانند پردازنده در مواجه شدن با منابع مشابه و یکسان که آن‌ها را در Cache نگهداری می‌کرد در سیستم NoSQL هم داده‌های پر استفاده در Cache نگهداری می‌شوند. پس استفاده از NoSQL باعث افزایش سرعت در طراحی و اجرای پایگاه داده شده و همچنین محدودیت‌های قالب قدیمی را از میان بر می‌دارد که بیشتر مورد نیاز دنیای امروز و آینده اطلاعات و داده‌ها می‌باشد. 

۱-۱-۵- مسائل حوزه تحلیل اطلاعات در کلان داده

الف ) عدم کاربرد روش‌های سنتی تحلیل اطلاعات در کلان داده

در علم تجزیه و تحلیل سنتی داده‌ها (داده کاوی)، داده‌های اولیه به طور معمول در انباره‌های داده‌ای قرار گرفته و هر انباره داده‌ای نیز می‌بایست از یک قالب از پیش تعریف شده برای نگهداری و مدیریت داده‌های خود استفاده می‌کرد تا بتواند براساس نیاز و کاربرد، تجزیه و تحلیل خود را بر روی اطلاعات اجرایی نماید. استفاده از انباره داده‌ای در تحلیل اطلاعات معایبی را با توجه به کاربردهای امروز فناوری در تصمیم گیری دارد. مشکل اول این است داده‌های آن به روز نبوده و از عمر تولید آن مدت زمان زیادی می‌گذرد و در بعضی از کاربردهای تحلیل کلان داده نیاز به داده‌های جدید و بر خط وجود دارد. مشکل دوم مربوط به مدیریت اطلاعات در انباره داده‌ای است که به شکل متمرکز بوده و توسط یک تیم مدیریت و کنترل می‌شود اما در کلان داده، حجم عظیمی از داده‌ها به شکل غیرمتمرکز و توزیع شده قرار دارد که هر عمل پردازشی و تحلیلی روی این حجم از داده باید قابلیت اجرای موازی بر روی تعداد زیادی خوشه‌ها در شبکه را داشته باشد.

ب ) چالش‌های تحلیل داده

در این حوزه همواره چالش‌های زیادی به دلیل ماهیت کلان داده و ویژگی‌های آن مطرح بوده و هست. از چالش‌های روز آن می‌توان به تحلیل اطلاعات نیمه ساختاری و بدون ساختار اشاره نمود. یکی از روش‌های تحلیل اطلاعات در داده‌های بدون ساختار متنی استفاده از ‘فرا داده’ است برای مثال فردی در شبکه اجتماعی پیامی به این شکل می‌نویسد من از وضعیت پوشش شبکه تلفن همراه خود راضی نیستم در صورتی که در تبلیغات گفته شده بود بهترین پوشش شبکه را دارد، بهتر است سرویس دهنده خود را عوض کنم! ‘ برای آگاه شدن از قصد مشتری شبکه‌های اجتماعی با استفاده از موتور استنتاج خود فرا داده‌های کلیدی مانند’ سرویس دهنده’ , ‘راضی نیستم ‘,’ رضایت’ , ‘قصد’ را نشانه گذاری کرده و در لحظه می‌توانند داده‌ها را تحلیل کنند. مشخص است که کلان داده محدود به متن نبوده و شامل حجم عظیمی از تصاویر، صداها و ویدئو نیز می‌باشد و همواره مبحث مدیریت فرا داده‌ها به عنوان یکی از روش‌های تحلیل اطلاعات در کلان داده موضوعی جذاب است که نیاز به پژوهش بیشتری دارد. 

ج) چالش‌های امنیت و حریم شخصی

از چالش‌های حریم خصوصی در کلان داده خصوصا در شبکه‌های اجتماعی، اطلاعات حساس افراد است که پس از تحلیل ممکن است به کشف دانشی منجر شود که برای فرد خصوصی بوده و تمایل ندارد دارنده اطلاعات و یا هر شخص دیگری از آن اطلاع داشته باشد. همچنین مجری قانون و یا دولت ممکن است از اطلاعات حریم خصوصی افراد استفاده کنند. همچنین اطلاعات شخصی افراد در تبلیغات مؤثر موتورهای جستجو، شبکه‌های اجتماعی، پست الکترونیکی و … است مورد بهره برداری قرار گیرد.

د) چالش‌های فنی و پردازشی

بعضی از الگوریتم‌ها و فناوری‌های تحلیل داده‌ها در مقیاس پایین عملکرد مناسبی را از خود نشان داده‌اند اما گفته می‌شود بعضی از الگوریتم‌ها و فناوری‌های حال حاضر که در ادامه آمده است مقیاس‌پذیری به اندازه حجم زتابایت را ندارند: تکیک‌های یادگیری ماشین، تحلیل اطلاعات متنی- ویدئویی- صوتی بدون ساختار -تصویرسازی داده‌ها – رایانش ابری – داده کاوی – الگوریتم‌های گراف و مش – اضافه شدن داده‌های ساختاری به الگوریتم‌های موجود.

تکنولوژی داده‌های عظیم چیست؟ 

داده‌های عظیم تنها پیام آور فرصت‌ها نیستند، بلکه چالش‌های تکنیکی خود را به همراه دارد. سیستم‌های پردازشی سنتی قادر به انجام پردازش روی داده‌های حجیم نبوده و ما نیاز به نسل جدیدی از تکنولوژی اطلاعات برای پردازش داده‌های عظیم خواهیم داشت. تکنولوژی‌های داده‌های عظیم به پنج گروه اصلی تقسیم بندی می‌شوند که در جدول زیر نمایش داده می‌شود: برای آشنایی اجمالی با هر کدام از این پنج گروه، در صفحات بعد شرح مختصری از هر کدام و برخی از تکنولوژی‌های مورد استفاده از آن‌ها آمده است.

۱- زیر ساخت (Infrastructure support)

به طور کلی شامل سطوح زیر ساختی داده در حوزه‌های مدیریت مرکز داده، پلتفرم‌های پردازش ابری، تجهیزات و تکنولوژی‌های ذخیره سازی ابری، تکنولوژی‌های شبکه‌ها و تکنولوژی‌های مانیتورینگ منابع می‌باشد.
پردازش داده‌های عظیم نیاز به پشتیبانی از داده‌های مبنتی بر ابر و منابع فیزیکی در ابعاد بالا دارد.
برخی از تکنولوژی‌های مطرح در پردازش ابری عبارتند از :
Amazon Web Services (AWS)
Google’s App Engine 
Microsoft’s Windows Azure Services
در کنار این تکنولوژی‌های تجاری، تعداد زیادی از پلتفرم‌های متن باز پردازش ابری وجود دارد.
Open Nebula  -Eucalyptus  -Nimbus -Open Stack 

۲- جمع آوری داده‌ها (Data acquisition)

جمع آوری داده‌ها پیشنیاز پردازش اطلاعات است. ابتدا باید اطلاعات را جمع آوری کنیم که بتوانیم لایه‌های پردازش اطلاعات را روی آن‌ها مستقر نمائیم.
با وجود نرم افزارها، سخت افزارها و سنسورهای مختلف، برای جمع آوری اطلاعات باید فرآیند ETL رو داده‌های انجام شود. که بتواند اطلاعات مختلف تولید شده را تمیز، فیلتر، تبدیل و چک نماید تا اطلاعات صحیح داشته باشیم.
در واقع برای پشتیبانی از چندین منبع مختلف و متنوع باید عملیات جمع آوری به درستی انجام شود.
ابزارهای ETL در داده‌های عظیم با ابزارهای سنتی تفاوت دارد، از یک سو حجم داده‌ها و از سوی دیگر سرعت تولید داده در داده‌های عظیم که بسیار سریع است.
در حقیقت برای تجیمع و جمع آوری داده‌های مختلف از نرم افزارها، دوربین‌ها، سنسورها، گوشی‌های موبایل، دستگاه‌های GPS و ….. باید از یک گذرگاه جامع استفاده نماییم که بتواند جامعیت را برقرار سازد که به Enterprise data bus  معروف است.
EDS یک لایه مجازی برای ورود داده‌ها ایجاد می‌کند.

۳- ذخیره سازی داده‌ها (Data storage)

بعد از جمع آوری و تبدیل داده‌ها باید داده‌ها ذخیره و آرشیو شود. در مواجهه با اطلاعات عظیم تکنولوژی‌های فایل‌ها و بانک‌های اطلاعاتی توزیع شده مورد استفاده قرار می‌گیرد.
سیستم‌های فایل توزیع شده برای ذخیره سازی داده‌های عظیم از Nodeهای مختلف برای نگهداری فایل‌های مختلف استفاده می‌کند و بانک‌های اطلاعاتی NoSQL برای پردازش و تحلیل حجم بالایی از داده‌های غیرساخت یافته استفاده می‌کند.
برخی از تکنولوژی‌های فایلهای توزیع شده عبارتند از:
(Open Source Solution) 
Hadoop   Distributed File System(HDFS) and MapReduce
Google File System (GFS)
و در بانکهای اطلاعاتی:
HBase -Google BigTable-Facebook’s Cassandra.-MongoDb  و…

۴- محاسبات داده‌ای (Data computing)

پرس و جو روی داده‌ها، آمار، آنالیز، پیش بینی، کاوش، تحلیل نموداری، هوش کسب و کار در زیر مجموعه محاسبات داده‌ای قرار می‌گیرند.
محاسبات بر روی داده‌های عظیم با تکنولوژی‌های متنوعی انجام می‌شود که در سه گروه دسته بندی می‌شوند:

۴-۱: پردازش افلاین (Offline batch computing)

که شامل تکنولوژی‌های و ابزارهای مختلفی می‌باشد که برخی از آن‌ها عبارتند از:
Hadoop platform –Hbase –  Hive- Zookeeper – Avro – Pig-Spark
و…
که به نحوه استقرار و جایگاه آن‌ها در مجموع اکو سیستم هادوب می‌گویند.
تصویر زیر نمونه‌ای از این اکو سیستم است:

۴-۲: Real-time interactive computing

یکی از نکات قوت داده‌های عظیم است که بتواند به صورت برخط محاسبات را در حجم بالا و سرعت بالا انجام دهد.
برخی از تکنولوژی‌های معروف آن عبارتند از:
Facebook’s open-source Scribe -LinkedIn’s open-sourceKafka 
Cloudera’s open-source Flume -Taobao’s open-source TimeTunnel
Hadoop’s Chukwa –Spark-Google BigQuery, Dremel 

۴-۳: Streaming computing

پردازش جریانی (Streaming Computing) یا پردازش پیوسته، یک فناوری قدرتمند در عصر اطلاعات است که در آن داده‌ها در زمان واقعی و به صورت پیوسته تحلیل و پردازش می‌شوند. در محیط متلب، امکانات قدرتمندی برای پردازش جریانی وجود دارد که به کمک آن‌ها می‌توان عملیات پیچیده را به صورت همزمان و در حالت زمان واقعی انجام داد. این امکان به مدیران و محققان کمک می‌کند تا به صورت سریع و دقیق ترجمه‌های نوین را در زمینه‌های مختلف از جمله پزشکی، مهندسی، تحلیل مالی و غیره انجام دهند.

بدیهی است برای شروع هر پروزه در این حوزه باید در فاز مطالعاتی تکنولوژی‌های مورد نیاز بدرستی شناسایی شود.

دیدگاهتان را بنویسید