بسیاری از شرکتها و سازمانها به این باور رسیدهاند که گردآوری، سازمان دهی و یکپارچه سازی دادهها در یک مخزن داده برای مدیریت بهینه و اتخاذ تصمیمات کلان یک ضرورت میباشد.
به طور کلی ساخت یک انبار داده، به شکل یک پروژه شامل مراحل اصلی زیر میباشد:
۱- استخراج دادههای تراکنشی از پایگاههای داده به یک مخزن واحد
شناخت منابع دادههای سازمان و استخراج دادههای ارزشمند از آنها یکی از اصلیترین مراحل ایجاد انبار داده میباشد.
۲- تبدیل دادهها
از آنجائی که سیستمهای اطلاعاتی و برنامههای کاربردی یک سازمان غالبا توسط افراد و پروژههای مختلف به مـرور زمان در مواجهـه با نیـازهای جدید سـاخته یا تغییر شـکل داده میشـوند، یکسـان سـازی آنها امری ضروری میباشد.در بسیاری از موارد نیز سیستمهای اطلاعاتی در بسترهای مختلف پایگاه داده مانند Microsoft SQL Server ،Oracle ، Sybase ، Microsoft Access و غیره طراحی گردیدهاند. بررسی جداول، برقراری ارتباط بین فیلدها و یک شکل سازی دادهها در این مرحله صورت میپذیرد.
۳- بارگذاری دادههای تبدیل شده به یک پایگاه داده چند بعدی
بر خلاف پایگاه داده سیستمهای عملیاتی (OLTP) که دارای معماری رابطهای میباشند و از اصول نرمالیزه استفاده میکنند، طراحی انبار داده به شکلی ویژه بدون بهره گیری از اصول نرمالیزاسیون میباشد. در انبار داده فیلدها در جاهای مختلفی تکرار میشوند و روابط بین جداول کمتر به چشم میخورند. علت آن هم افزایش سرعت پردازش اطلاعات هنگام گزارشات و عملیات آماری میباشد.
۴- تولید مقادیر از پیش محاسبه شده جهت افزایش سرعت گزارشگیری
مـقادیر از پیـش محاسـبه شده را تراکـم نیـز مـینامـند. ایـن مرحلــه توســط سیستـمهایی نظــیر Microsoft SQL Server Analysis Services بسیار ساده تر شده است. ایـن تراکمها کـه در ابـعاد مختلـف انبار داده سـاخته میشوند، موجب میشوند که سرعت انجام عملیات گزارش گیری به شکل محسوسی افزایش یابد. باید توجه داشت که عملیات ساخت این مقادیر بسیار زمان گیر بوده و نیازمند حافظه زیادی بر روی سرور است.
۵- ساخت (یا خرید) یک ابزار گزارشگیری
پس از انجام مراحل فوق، شـما میتوانـید نسبـت به ساخت یا خـرید یـک نرم افزار گزارش گیـری تصمیم گیری نمایید. به طور معمـول هزینه سـاخت یک نرم افزار گزارش گـیری، بالاتـر از هزینـه خریـد آن از یک شرکت خارجـی میشود.
ویژگیهای اصلی دادههای انبار دادهها
دادههای موجود در انبار داده ها از سیستمهای عملیاتی متنوع (نظیر سیستمهای پایگاه دادهها) و منابع دادهای خارجی (نظیر پایگاه دادههای آماری و WWW ) یکپارچه میشوند. تفاوتهای ساختاری و معنایی دادهها باید پیش از یکپارچه سازی انسجام یابند. برای مثال دادهها باید مطابق با مدل دادهای یکپارچه “همگن” شوند. به علاوه، مقادیر دادهای سیستمهای عملیاتی باید پاک شوند تا دادههای صحیحی در انبار داده ها وارد شوند. نیاز به دادههای تاریخی یکی از موارد مهم درشیوه انبار دادهها است. دادههای تاریخی برای تحلیل روند کسب و کار ضروری هستند. البته هزینه نگهداری این گونه دادهها نیز باید مورد توجه قرار گیرد. به علاوه، دادههای انبار دادهها ثابت هستند، برای مثال دسترسی به DWH از نوع خواندنی است. انجام اصلاحات در این دادهها فقط هنگامی صورت میگیرد که اصلاحات دادههای منبع در انبار انتشار یابند. DWH دادههای دیگری به نام دادههای اشتقاق یافته (derived data) دارد. این دادهها به طور صریح در منابع عملیاتی ذخیره نمیشوند، بلکه در حین بعضی از فرایندها از دادههای عملیاتی، اشتقاق مییابند. برای مثال دادههای فروش را میتوان در سطوح مختلف (هفتگی، ماهانه، فصلی) در انبار ذخیره نمود.
Data Warehouse
سیستم های انبار دادهها
سیستم انبار دادهها (DWS) شامل انبار دادهها و همه مولفههایی است که برای ساخت، دستیابی و نگهداری DWH به کار میروند. انبار دادهها بخش مرکزی سیستم انبار دادهها را تشکیل میدهد. گاهی اوقات انبار دادهها حجم عظیمی از اطلاعات را در واحدهای منطقی کوچکتر به نام Data Mart نگهداری میکند. مولفه آماده سازی، مسوولیت کسب یا دریافت دادهها را بر عهده دارد. این مولفه شامل همه برنامهها و برنامههای کاربردی ای است که مسوول استخراج دادهها از منابع عملیاتی هستند. مولفه دستیابی شامل برنامههای کاربردی مختلف (OLAP یا برنامههای کاربردی داده کاوی) است که امکان استفاده از اطلاعات ذخیره شده در انبار دادهها را فراهم میآورند.
مولفه مدیریت Metadata، وظیفه مدیریت، تعریف و دستیبابی به انواع مختلف Metadata را بر عهده دارد. در اصل ،Metadata “دادههایی درباره دادهها” یا “دادههایی است که مفهوم دادهها را توصیف میکنند”. انواع مختلف Metadata در انبار دادهها وجود دارند. مثلا اطلاعاتی درباره منابع عملیاتی، ساختار دادههای DWH و کارهایی که در حین ساخت، نگهداری و دستیبابی به DWH انجام میشوند. نیاز به Metadata شناخته شده است. پیاده سازی یک DWS منسجم، کار پیچیده و دشواری است و شامل دو فاز میباشد. در فاز اول که پیکربندی DWS نام دارد، دیدگاه مفهومی انبار دادهها مطابق با نیازمندیهای کاربر مشخص میشود. سپس منابع دادهای دخیل و روش استخراج و بارگذاری در انبار دادهها تعیین میگردد. سرانجام، درباره پایگاه دادههای مورد نظر و روشهای دستیبابی دادهها تصمیم گیری خواهد شد. پس از بار گذاری اولیه، در فاز عملیات DWS باید دادههای انبار دادهها به منظور منظم refresh شوند.
طراحی انبار دادهها
روشهای طراحی انبار دادهها امکان پردازش کارآمد query را برروی حجم عظیمی از دادهها فراهم میآورند. نوع ویژهای از الگوی پایگاه دادهها به نام star برای مدل سازی انبار دادههای چند بعدی به کار میرود. در این حالت، پایگاه دادهها از یک جدول مرکزی واقعیت یا fact و جداول چند بعدی تشکیل شده است. جدول واقعیت حاوی tupleهایی است که بیانگر واقعیتهای کسب و کار مانند فروش یا عرضه هستند. هر tuple جدول واقعیت به tupleهای جدول چند بعدی اشاره دارد. هر tuple جدول چند بعدی مواردی نظیر محصولات، مشتریان، زمان و فروشنده را نشان میدهد.