کلان داده  يا داده های عظيم

1.مقدمه

با گسترش روزافزون استفاده از خدمات فناوری اطلاعات، و همچنین فراگیر شدن ابزارهای دیجیتالی، هر فرد به واسطه حضور خود در فضای مجازی باعث تولید حجم زیادی از داده ها می‌شود.این داده ها می‌تواند در دو دسته بندی کلی قرار بگیرد، یک قسمت اطلاعاتی است که انسان آن را تولید کرده و قسمت بعدی اطلاعاتی است که توسط ماشینهای مختلف (همانند مسیریابها، دوربینهای مدار بسته، حسگرهای مختلف و ...) در حال تولید است.


کلان داده,داده های بزرگ,big data,داده های کلان


1-1-1- تعريف داده هاي عظيم (Big data):

اگر بخواهیم معادلی فارسی برای ' Big Data ' در نظر بگیریم می‌توان به ' داده های عظیم '، ' کلان داده ' یا ' حجیم داده ' اشاره نمود که در مفهوم هیچ اختلافی با یکدیگر ندارند. کلان داده به حجم عظیمی از داده ها اطلاق می شود که پردازش آنها به وسیله پایگاه داده های سنتی و ابزارهای آن غیرقابل انجام بوده و شامل انواع مختلفی از داده های چندرسانه ای، متن و ... می‌شود که به شکل غیرقابل تصوری حجم آن در حال افزایش است. البته تشخیص وجه تمایز یک مجموعه اطلاعاتی که آن را کلان داده نامگذاری می‌کنیم و یک سیستم اطلاعاتی حجیم که ظاهراً شرایط آن را دارد بسیار مهم است. برای مثال یک سامانه داده‌ای که تمامی اطلاعات مردم ایران را در خود ذخیره می‌کند (نام، نام خانوادگی، شماره ملی و ...) نمی‌تواند کلان داده به‌شمار آید در صورتی که ظاهراً حجم بالایی از اطلاعات را در دل خود دارد. در بیشتر منابع و مقالات برای کلان داده سه ویژگی بیان شده است : حجم، گوناگونی و سرعت که اصطلاحاً به آن  3Vs  نیز می گویند. البته در منابعی دیگر علاوه بر سه ویژگی اصلی گفته شده مقدار داده و پیچیدگی داده را نیز به ویژگیهای آن اضافه کرده‌اند. اما  واضح است در صورتی که یک محیط جریان اطلاعاتی یا یک شبکه بتواند هر سه مورد نام برده شده را احراز کند به آن مجموعه کلان داده گفته می‌شود. 
 


کلان داده,داده های بزرگ,big data,داده های کلان


الف) حجم داده:

شاید مهمترین ویژگی کلان داده را بتوان حجم عظیم داده برشمرد، امروزه شرکتهای صاحب نام در عرصه فناوری اطلاعات خصوصا شبکه های اجتماعی به تنهایی می توانند روزانه 500 ترابایت اطلاعات جدید تولید کنند، به عنوان مثال سرویس اشتراک ویدئوی گوگل در هر دقیقه بیش از 100 ساعت ویدئو بارگذاری شده توسط کاربران خود را دریافت و مدیریت می کند.

ب) گوناگونی داده:

اطلاعات مربوط به حسگرهای مختلف، تلفنهای هوشمند، ارتباطات در شبکه های اجتماعی، دارای تنوع بالایی بوده و اطلاعاتی که به صورت ساختاری و بدون ساختار ذخیره می‌شوند از نظر گوناگونی بسیار پیچیده هستند، زیرا تمام این اطلاعات در پایگاه داده های رابطه ای سنتی ذخیره نشده است. علاوه بر این داده ها خام، نیمه ساختاری، و یا کاملاً بدون ساختار است. به عنوان مثال ایمیلهای ارسالی و دریافتی، اطلاعات شبکه های اجتماعی و ... همگی از نمونه های اطلاعات بدون ساختار است زیرا هیچ قالب از پیش تعیین شده‌ای برای ورود اطلاعات ندارند .
 

ج)سرعت داده:

سرعت داده به این معنی است که داده ها از طریق منابع اطلاعاتی مختلف با سرعتبسیار بالایی تولید و منتقل می‌شوند، برای مثال سرعت تولید داده توسط حسگرهای RFID در یک مجموعه بسیار بالا بوده که علاوه بر ذخیره سازی این اطلاعات در لحظه، باید اطلاعات مورد تجزیه و تحلیل نیز قرار بگیرند. واضح است سیستمهای سنتی ذخیره سازی و تحلیل اطلاعات به سادگی نمی‌توانند این جریان از اطلاعات را به صورت بلادرنگ مورد بررسي و نمايش قرار دهند.

1-1-2- منشا داده هاي عظيم:

تا سال 2003 میلادی 5 اگزا بایت (معادل 5 میلیارد گیگابایت) اطلاعات توسط انسان تولید شده بود. اما امروزه این حجم از داده تنها در دو روز توسط انسان تولید می‌شود. شرکت IBM در گزارش خود اعلام کرد هر روز 2.5 اگزا بایت اطلاعات به داده های دنیا افزوده می‌شود و 90 درصد مقدار اطلاعاتی که در حال حاضر در دست داریم فقط در دو سال گذشته تولید شده است .(2012,singh) ابزار و فناوری های مختلفی که در دسترس انسان امروزی قرار دارد، از دوربین و میکروفون و تلسکوپ و گوشی تلفن گرفته تا شبکه های بیسیم و ماهواره ای همگی در حال تولید اطلاعات و افزایش حجمِ  داده‌های عظیم هستند. برآوردها نشان می دهد هم اکنون 4.6 میلیارد گوشی موبایل در سراسر جهان وجود دارد و حدود 1 تا 2 میلیارد نفر هم به اینترنت دسترسی دارند. تعداد افرادی که امروزه با داده ها و اطلاعات سروکار دارند به مراتب بیشتر از گذشته است. تعدادی از مواردی که به عنوان منشا داده های عظیم می توان از آنها نام برد عبارت است از :
• شبکه و رسانه های اجتماعی
• اینترنت اشیا
• کاربردهای ICT در بخش های مختلف 
• توسعه دسترسی نسل های جدید به موبایل
• توسعه خدمات نوین بانکی
 

کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


1-1-3- اهميت و كاربرد كلان داده

دولت آمریکا اعلام نمود تا سال 2012 بر روی زمینه های کاربردی کلان داده در حوزه سلامت، امنیت فضای مجازی، نظامی و دفاعی، انرژی و فعالیتهای تحقیقاتی مرتبط بیش از 200 میلیون دلار هزینه نموده و نتایج آن را در جهت بهبود تصمیم گیری و سیاستگذاری در زمینه های نام برده شده به کار گرفته است. در واقع هدف اصلی سرمایه گذاران و سازمانها در زمینه کلان داده و کاربردهای آن تصمیم گیری دقیق و صحیح از طریق تحلیل حجم بیشتر داده‌ها است.روشهای تجزیه تحلیل کلان داده زمانی قدرت خود را نسبت به الگوریتمهای داده کاوی و یا سیستمهای پرس وجوی پیشرفته در پایگاه داده های رابطه ای سنتی نمایان می‌سازد که مجموعه‌ای از داده های ساختاری، نیمه ساختاری و بدون ساختار از منابع مختلف اطلاعاتی وارد سیستم شود.در ادامه با چند مورد از کاربردهای کلان داده در کسب و کار، اقتصاد و ... بیشتر آشنا میشویم.

الف ) فناوری اطلاعات

از مهمترین موقعیت های کاربردی کلان داده در عرصه فناوری اطلاعات می‌توان به تجزیه و تحلیل وقایع شبکه در جهت کشف خطا و یا کشف نفوذ به شبکه اشاره نمود.

ب) اقتصاد و کسب وکار

شاید با ارزش ترین کاربرد تحلیل کلان داده از نظر اقتصادی در حوزه کسب و کار باشد، در جایی که با حجم عظیمی از اطلاعات مشتریان و تراکنش های خرید آنها مواجه هستیم. در ادامه برخی کسب و کارهایی که می توانند مولد داده های عظیم باشند و از تحلیل آنها متاثر شوند نام برده می شوند.

بازاریابی و فروش: 

با تجزیه و تحلیل مناسب داده های مشتریان می‌توان سیاست ها و راهکارهای مناسب جهت افزایش فروش و بازاریابی دقیق را به کار برد. برای مثال می‌توان با تجزیه و تحلیل اطلاعات مربوط به سبد خرید مشتریان، تنظیم قیمت صحیح محصول در جهت فروش بیشتر، طراحی محل قرارگیری محصولات در فروشگاه با توجه به اطلاعات آماری حرکت خریداران، کشف راهکارهای ترغیب مشتری در خرید مجدد از فروشگاه، مدیریت زنجیره عرضه تقسیم بندی مشتریان، پیشنهاد دقیق کالا در زمان مناسب به مشتری و . . . اشاره نمود .


کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


اقتصاد و بانکداری:

در زمینه اقتصاد و فعالیتهای بانکی نیز میتوان با آنالیز داده ها، میزان ریسک مرتبط با یک طرح را پیش بینی نمود و یا سوء استفاده از کارتهای اعتباری مشتریان را با تشخیص الگوی شک برانگیز در استفاده از کارت اعتباری مشخص نمود. کشف نفوذ و یا تقلب، کلاهبرداری و یا پولشویی، با استفاده از تجزیه و تحلیل تراکنشهای مالی مشتریان با دیگر منابع اطلاعاتی نیز، امروزه بسیار کاربردی شده است .تجارت اجتماعی: یکی از بسترهای مولد داده های عظیم تجارت اجتماعی است. در تجارت اجتماعی، فعالیت های تجاری و غیر تجاری در اجتماعات و بازارهای online صورت می‌گیرد. تجارت اجتماعی بستری است شامل فعالیت‌های خرید و فروش و تعاملات وابسته به آن، که منجر به در نظر گرفتن همزمان مشتریان و فروشندگان می‌شود. این نوع از تجارت از فرآیند تصمیم گیری مشتری و رفتار خرید وی حمایت می‌کند.


ج) زندگی و سلامت

از کاربردهای تحلیل کلان داده در زمینه بیمه و سلامت می‌توان به بالا بردن کیفیت نگهداری از بیماران و بهبود برنامه نگهداری آنان اشاره نمود. تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی، تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت، تشخیص بیماریها براساس انواع اطلاعات (تصاویر پزشکی، مشخصات بیمار احتمالی)، تأثیر داروها بر روند بهبودی بیماران و بررسی الگوهای مختلف ایجادکننده امراض در افراد و ...از جمله مواردی است که توسط داده های عظیم محقق می گردد.


د) شبکه های اجتماعی

یکی از کاربردی ترین زمینه های کلان داده و تحلیل آن در شبکه های اجتماعی نمایان می‌شود. شبکه های اجتماعی چندی است که به صورت فراگیر در بین عموم جامعه، از فضاهای خصوصی گرفته تا بخش های عمومی اجتماع، رسوخ کرده اند. شبکه های اجتماعی بسیار به روز و در تعامل با بدنه اصلی جامعه هستند. کانال توزیعی که به هیچ عنوان در دنیای قبل از این رسانه ها وجود نداشت.


کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


بررسی نظرات افراد در مورد یک محصول و بهینه سازی آن در جهت رسیدن به فروش بالاتر، بهینه سازی کالای پیشنهادی در موتورهای جستجو با توجه به لیست علاقه مندیهای فرد در شبکه اجتماعی وی، پیش بینی برنده انتخابات با استفاده از تجزیه و تحلیل نظرات کاربران در شبکه های اجتماعی از مهمترین کاربردهای کلان داده در شبکه های اجتماعی است . حال که این شبکه توزیع رایگان در اختیار شرکت ها قرار گرفته است، صاحبین این جوامع مجازی در راستای بهره‌وری هرچه بیشتر از این رسانه ها در جهت تامین منافعشان تلاش می کنند. پیش از این همیشه صحبت از لو رفتن اطلاعات خصوصی اشخاص در فضاهایی مانند فیس بوک بوده است. ولی با تحولات کلان داده بسیار می توان پا را فراتر گذاشت و به اطلاعات جمعی اشخاص و جوامع که خودشان نیز دسترسی ندارند، رسید. به عبارتی علاوه بر رد و بدل شدن اطلاعات، بخشی از هویت جوامع نیز در حال شکل گرفتن است و این فرهنگ را می توان به تمامی بخش‌های اجتماع تسری داد.فیس بوک اعلام کرده است برای هر کاربر به صورت متوسط در هر روز 1500 مطلب جدید از دوستان و مطالب مورد علاقه، برای مشاهده دارد. ولی اکثر کاربران وقت کافی برای مرور این همه مطلب ندارند. لذا با هوشمندی فیس بوک وارد کار می شود. با فیلتر کردن مطالب دلخواه افراد و نشان دادن مطالبی که میخواهد از بین مطالب جدید هر شخص، می تواند به عنوان شبکه ای برای جهت دهی افکار و تبلیغات هوشمند عمل کند. کلان داده این امکان را فراهم ساخته است که فیس بوک علایق اشخاص را با توجه به مطالبی که به عنوان دلخواه انتخاب می کنند و مطالبی که منتشر می کنند، استخراج کند. در نتیجه دریایی از اطلاعات مفید برای یافتن مشتریان هدف شرکت ها در دسترس دارد.پس از ایجاد جریان های درآمد زایی جدید، کلان داده مسیر جدیدی نیز به اجبار پیش روی این شبکه ها قرار داده است. این شبکه ها جریان های فوق العاده درآمد زایی را با استفاده از کلان داده ایجاد کرده اند، حال آنکه روش های بسیار بهتری برای به دست آوردن این اطلاعات پیدا شده است و آن اپلیکیشن های پیامی مانند واتس آپ هستند. در حقیقت جریان درآمدزایی اصلی این شبکه ها تبلیغات و رسانه بودن آن هاست. از این رو با این محوریت تکنولوژی ابعاد جدیدی از خود را نمایان ساخته است. 


کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


1-1-4- ابزارها و روش هاي موجود

در گذشته اگر سازمانها با حجم عظیمی از داده‌ها بر روی پایگاه داده رابطه ای خود مواجه می گشتند، به منظور نگهداری و تحلیل اطلاعات مجبور بودند از یک ابَر رایانه و یا انباره داده‌ای استفاده کند. ضعف پایگاه داده های رابطه ای در نگهداری و تجزیه و تحلیل حجم عظیمی از داده های نیمه ساختاری و بدون ساختار نمایان گشت و دانشمندان با مطرح کردن فناوری جدیدی به نام No SQL اقدام به ساخت نسل جدیدی از پایگاه های داده ای که میتواند حجم عظیمی از اطلاعات را نگهداری و پردازش کند،  نمودند. زمینه‌هايي که این پایگاه‌هاي داده‌اي مناسب آن‌ها هستند و از خود شایستگی بیشتری در آن‌ها نشان مي‌دهند، به ترتیب در ادامه آورده شده‌اند:  
• داده‌هاي با توالی نوشتن بالا و توالی خواندن کم: همانند شمارنده‌های بازدید صفحات وب، دستگاه‌هاي وقایع‌نگار یا تلسکوپ‌هاي فضایی. 
• داده‌هاي با توالی خواندن بالا و توالی نوشتن بسیار‌کم:  همانند داده‌هاي‌گذرا و کش شده‌اي از تصاویر، اسناد کاربردهاي نیازمند دسترس پذیری بالا  و با توقف خدمات   بسیار‌کم
• داده‌هايي که باید در نقاط مختلف جغرافیایی با هم همگام‌سازی شوند: مانند داده‌هايي که در کلاسترهای مختلف یک شبکه بزرگ‌ سازمانی با دفاتر مختلف پراکنده در سطح جغرافیایی وسیع موجودند و نیاز است تا همواره و با بالاترین سرعت و کمترین هزینه ممکن با هم همگام سازی شوند
• داده‌هاي بزرگ تجاری یا مرتبط با تحلیل وب که شمای خاصی ندارند:  چنین داده‌هايي تقریباً شکل و قالب از پیش تعیین شده‌اي ندارند و بر‌اساس محتوای متغیر موجود روي وب تولید مي‌شوند و در بيشتر موارد به فعالیت‌کاربران و سیستم‌هاي نرم‌افزاری مرتبط وابسته ‌هستند. 
 
اولین و مهم ترین مزایای پایگاههای داده NoSQL عدم طراحی شمای (الگو) خاص برای داده هاست. در این سیستم داده های ورودی می تواند هر موقع تغییر نوع پیدا کرده و سیستم باید خودش را با آن مطابق کند. دومین مزیت قابلیت چند بخشی شدن خودکار و تشخیص هوشمند یکپارچگی است. در مدلهای سنتی ، SQL،  طراح باید چند سرور بودن را در طراحی خود حتما لحاظ می کرد و بر طبق آن شمای پایگاه داده را پیاده سازی می کرد ولی در سیستم NoSQL چند سرور بودن بخاطر هوشمندی و بالا بودن سطح سیستم هیچ مانعی برای ادامه کار ندارد. سومین مزیت وجود Cache برای افزایش سرعت بازیابی اطلاعات می باشد که همانند پردازنده در مواجه شدن با منابع مشابه و یکسان که آنها را در Cache نگهداری می کرد در سیستم NoSQL هم داده های پراستفاده در Cache نگهداری می شوند. پس استفاده از NoSQL باعث افزایش سرعت در طراحی و اجرای پایگاه داده شده و همچنین محدودیت های قالب قدیمی را از میان برمی دارد که بیشتر مورد نیاز دنیای امروز و آینده اطلاعات و داده ها می باشد. 
 


کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان



1-1-5- مسائل حوزه تحليل اطلاعات در كلان داده:

الف ) عدم کاربرد روشهای سنتی تحلیل اطلاعات در کلان داده:

در علم تجزیه و تحلیل سنتی داده ها (داده کاوی)، داده های اولیه به طور معمول در انباره های داده ای قرار گرفته و هر انباره داده ای نیز میبایست از یک قالب از پیش تعریف شده برای نگهداری و مدیریت داده های خود استفاده می‌کرد تا بتواند براساس نیاز و کاربرد، تجزیه و تحلیل خود را بر روی اطلاعات اجرایی نماید. استفاده از انباره داده ای در تحلیل اطلاعات معایبی را با توجه به کاربردهای امروز فناوری در تصمیم گیری دارد. مشکل اول این است داده های آن به روز نبوده و از عمر تولید آن مدت زمان زیادی می‌گذرد و در بعضی از کاربردهای تحلیل کلان داده نیاز به داده های جدید و برخط وجود دارد. مشکل دوم مربوط به مدیریت اطلاعات در انباره داده ای است که به شکل متمرکز بوده و توسط یک تیم مدیریت و کنترل می‌شود اما در کلان داده، حجم عظیمی از داده ها به شکل غیرمتمرکز و توزیع شده قرار دارد که هر عمل پردازشی و تحلیلی روی این حجم از داده باید قابلیت اجرای موازی بر روی تعداد زیادی خوشه ها در شبکه را داشته باشد.


کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


ب ) چالش های تحلیل داده:

در این حوزه همواره چالش های زیادی به دلیل ماهیت کلان داده و ویژگیهای آن مطرح بوده و هست. از چالش های روز آن میتوان به تحلیل اطلاعات نیمه ساختاری و بدون ساختار اشاره نمود. یکی از روشهای تحلیل اطلاعات در داده های بدون ساختار متنی استفاده از 'فراداده' است برای مثال فردی در شبکه اجتماعی پیامی به این شکل مینویسد من از وضعیت پوشش شبکه تلفن همراه خود راضی نیستم در صورتی که در تبلیغات گفته شده بود بهترین پوشش شبکه را دارد، بهتر است سرویس دهنده خود را عوض کنم! ' برای آگاه شدن از قصد مشتری شبکه های اجتماعی با استفاده از موتور استنتاج خود فراداده های کلیدی مانند' سرویس دهنده' , 'راضی نیستم ',' رضایت' , 'قصد' را نشانه گذاری کرده و در لحظه می‌توانند داده ها را تحلیل کنند. مشخص است که کلان داده محدود به متن نبوده و شامل حجم عظیمی از تصاویر، صداها و ویدئو نیز می باشد و همواره مبحث مدیریت فراداده ها به عنوان یکی از روشهای تحلیل اطلاعات در کلان داده موضوعی جذاب است که نیاز به پژوهش بیشتری دارد. 


ج) چالشهای امنیت و حریم شخصی:

از چالش های حریم خصوصی در کلان داده خصوصا در شبکه های اجتماعی، اطلاعات حساس افراد است که پس از تحلیل ممکن است به کشف دانشی منجر شود که برای فرد خصوصی بوده و تمایل ندارد دارنده اطلاعات و یا هر شخص دیگری از آن اطلاع داشته باشد. همچنین مجری قانون و یا دولت ممکن است از اطلاعات حریم خصوصی افراد  استفاده کنند. همچنین اطلاعات شخصی افراد در تبلیغات مؤثر موتورهای جستجو، شبکه های اجتماعی، پست الکترونیکی و ... است مورد بهره برداری قرار گیرد.


د) چالشهای فنی و پردازشی:

بعضی از الگوریتمها و فناوریهای تحلیل دادهها در مقیاس پایین عملکرد مناسبی را از خود نشان داده‌اند اما گفته می‌شود بعضی از الگوریتمها و فناوریهای حال حاضر که در ادامه آمده است مقیاس‌پذیری به اندازه حجم زتابایت را ندارند: تکیکهای یادگیری ماشین  ، تحلیل اطلاعات متنی- ویدئویی- صوتی بدون ساختار -تصویرسازی داده ها -رایانش ابری  -داده کاوی -الگوریتمهای گراف و مش- اضافه شدن داده‌های ساختاری به الگوریتمهای موجود .


تکنولوژی داد ه های عظيم چيست؟ 

داده های عظیم تنها پیام آور فرصتها نیستند ، بلکه چالشهای تکنیکی خود را بهمراه دارد.سیستمهای پردازشی سنتی قادر به انجام پردازش روی داده های حجیم نبوده و ما نیاز به نسل جدیدی از تکنولوژی اطلاعات برای پردازش داده های عظیم  خواهیم داشت.تکنولوژی های داده های عظیم به پنج گروه اصلی تقسیم بندی میشوند که در جدول زیر نمایش داده می شود: برای آشنایی اجمالی با هر کدام از این پنج گروه، در صفحات بعد شرح مختصری از هر کدام و برخی از تکنولوژی های مورد استفاده از آنها آمده است.

کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


1-زیر ساخت (Infrastructure support):

بطور کلی شامل سطوح زیر ساختی داده در حوزه های مدیریت مرکز داده ، پلتفرم های پردازش ابری ، تجهیزات و تکنولوژی های ذخیره سازی ابری ، تکنولوژی های شبکه ها و تکنولوژی های مانیتورینگ منابع می باشد.
پردازش داده های عظیم نیاز به پشتیبانی از داده های مبنتی بر ابر و منابع فیزیکی در ابعاد بالا دارد.
برخی از تکنولوژی های مطرح در پردازش ابری عبارتند از 
Amazon Web Services (AWS)
Google’s App Engine 
Microsoft’s Windows Azure Services
در کنار این تکنولوژی های تجاری ، تعداد زیادی از پلتفرم های متن باز پردازش ابری وجود دارد .
Open Nebula  -Eucalyptus  -Nimbus -Open Stack 


2-جمع آوری داده ها (Data acquisition):

جمع اوری داده ها پیشنیاز پردازش اطلاعات است. ابتدا باید اطلاعات را جمع اوری کنیم که بتوانیم لایه های پردازش اطلاعات را رو آنها مستقر نمائیم.
با وجود نرم افزار ها ، سخت افزار ها و سنسور های مختلف ، برای جمع آوری اطلاعات باید فرآیند ETL رو داده های انجام شود. که بتواند اطلاعات مختلف تولید شده را تمیز ، فیلتر ، تبدیل و چک نماید تا اطلاعات صحیح داشته باشیم.
در واقع برای پشتیبانی از چندین منبع مختلف و متنوع باید عملیات جمع آوری بدرستی انجام شود.
ابزارهای ETL در داده های عظیم با ابزارهای سنتی تفاوت دارد ، از یک سو حجم داده ها و از سوی دیگر سرعت تولید داده در داده های عظیم که بسیار سریع است.
در حقیقت برای تجیمع و جمع آوری داده های مختلف از نرم افزارها، دوربین ها ، سنسور ها ، گوشی های موبایل ، دستگهای GPS و ..... باید از یک گذرگاه جامع استفاده نماییم که بتواند جامعیت را برقرار سازد که به Enterprise data bus  معروف است.
EDS یک لایه مجازی برای ورود داده ها ایجاد میکند.


3-ذخیره سازی داده ها (Data storage):

بعد از جمع آوری و تبدیل داده ها باید داده ها ذخیره و آرشیو شود.در مواجهه با اطلاعات عظیم تکنولوژی های فایل ها و بانک های اطلاعاتی توزیع شده مورد استفاده قرار می گیرد.
سیستمهای فایل توزیع شده برای ذخیره سازی داده های عظیم از Node های مختلف برای نگهداری فایلهای مختلف استفاده میکندو بانک های اطلاعاتی NoSQL برای پردازش و تحلیل حجم بالایی از داده های غیر ساخت یافته استفاده میکند.
برخی از تکنولوژی های فایلهای توزیع شده عبارتند از:
(Open Source Solution) 
Hadoop   Distributed File System(HDFS) and MapReduce
Google File System (GFS)
و در بانکهای اطلاعاتی:
HBase -Google BigTable-Facebook’s Cassandra.-MongoDb  و...


4-محاسبات داده ای (Data computing):

پرس و جو روی داده ها ، آمار ، آنالیز ، پیش بینی ، کاوش ، تحلیل نموداری ، هوش کسب و کار در زیر مجموعه محاسبات داده ای قرار می گیرند.
محاسبات بر روی داده های عظیم با تکنولوژی های متنوعی انجام میشود که در سه گروه دسته بندی میشوند:
4-1: پردازش افلاین (Offline batch computing):
که شامل تکنولوژی های و ابزار های مختلفی می باشد که برخی از آنها عبارتند از:
Hadoop platform –Hbase -  Hive- Zookeeper - Avro – Pig-Spark
و...
که به نحوه استقرار و جایگاه آنها در مجموع اکو سیستم هادوب میگویند.
تصویر زیر نمونه ای از این اکو سیستم است:


کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


4-2: Real-time interactive computing

یکی از نکات قوت داده های عظیم است که بتواند بصورت برخط محاسبات را در حجم بالا و سرعت بالا انجام دهد .
برخی از تکنولوژی های معروف آن عبارتند از:
Facebook’s open-source Scribe -LinkedIn’s open-sourceKafka 
Cloudera’s open-source Flume -Taobao’s open-source TimeTunnel
Hadoop’s Chukwa –Spark-Google BigQuery, Dremel 


4-3:Streaming computing

در این حوزه همواره چالش های زیادی به دلیل ماهیت کلان داده و ویژگیهای آن مطرح بوده و هست. از چالش های روز آن میتوان به تحلیل اطلاعات نیمه ساختاری و بدون ساختار اشاره نمود. یکی از روشهای تحلیل اطلاعات در داده های بدون ساختار متنی استفاده از 'فراداده' است برای مثال فردی در شبکه اجتماعی پیامی به این شکل مینویسد من از وضعیت پوشش شبکه تلفن همراه خود راضی نیستم در صورتی که در تبلیغات گفته شده بود بهترین پوشش شبکه را دارد، بهتر است سرویس دهنده خود را عوض کنم! ' برای آگاه شدن از قصد مشتری شبکه های اجتماعی با استفاده از موتور استنتاج خود فراداده های کلیدی مانند' سرویس دهنده' , 'راضی نیستم ',' رضایت' , 'قصد' را نشانه گذاری کرده و در لحظه می‌توانند داده ها را تحلیل کنند. مشخص است که کلان داده محدود به متن نبوده و شامل حجم عظیمی از تصاویر، صداها و ویدئو نیز می باشد و همواره مبحث مدیریت فراداده ها به عنوان یکی از روشهای تحلیل اطلاعات در کلان داده موضوعی جذاب است که نیاز به پژوهش بیشتری دارد. 


کلان داده,داده های بزرگ,داده های عظیم,big data,داده های کلان


بدیهی است برای شروع هر پروزه در این حوزه باید در فاز مطالعاتی تکنولوژی های مورد نیاز بدرستی شناسایی شود.