انبار دادهها
تدوين : شهناز پيروزفر
تكنولوژي انبار دادهها شامل مجموعهای مفاهيم و ابزارهای جديدی است كه با فراهم آوردن اطلاعات از دانشگران (افراد اجرايي، مدير و تحليلگر) در تصميم گيری پشتيباني مينمايد. دليل اصلي ساخت انبار داده ها، بهبود كيفيت اطلاعات در سازمان است، در واقع دسترسي به دادهها از هر جا درون سازمان دادهها از منابع داخلي و خارجي تهيه ميشوند و به اشكال گوناگون از دادههای ساختاری گرفته تا دادههای ساخت نيافته مانند فايلهاي متني يا چند رسانهای، در مخزني مجتمع ميشوند. انبار دادهها يا DWH مخزني از اين دادههاست كه به صورتي قابل درك در دسترس كاربران نهايي كسب و كار قرار ميگيرد.
از اواسط سالهای 1980 نياز به انبار دادهها به وجود آمد و دريافتند كه سيستم های اطلاعاتي بايد به صورت سيستمهای عملياتي و اطلاعاتي مشخص شوند. سيستمهای عملياتي از فعاليتهای روزانه كسب و كار پشتيباني مينمايند و برای پاسخگويي سريع به ارتباطات از پيش تعريف شده مناسب هستند. دادههای عملياتي ارائه بيدرنگ و فعلي وضعيت كسب و كار ميباشند. اما سيستمهای اطلاعاتي براي مديريت و كنترل كسب وكار به كار ميروند. اين سيستمها از تجزيه و تحليل دادهها براي اتخاذ تصميم درباره عملكرد آني و آتي سازمان پشتيباني ميكنند و برای در خواستهاي موردی، پيچيده و به طور عمده فقط خواندني طراحي شدهاند.دادههاي اطلاعاتي تاريخي هستند، به عبارتي بيانگر ديدگاه ثابتي از كسب وكار در يك دوره زماني ميباشند.
ويژگيهاي اصلي دادههای انبار دادهها
دادههای موجود در انبار دادهها از سيستمهای عملياتي متنوع (نظير سيستمهاي پايگاه دادهها) و منابع دادهای خارجي (نظير پايگاه دادههای آماری و WWW )يكپارچه ميشوند. تفاوتهای ساختاری ومعنايي دادهها بايد پيش از يكپارچه سازی انسجام يابند. براي مثال دادهها بايد مطابق با مدل دادهای يكپارچه "همگن" شوند. بعلاوه، مقادير دادهاي سيستمهاي عملياتي بايد پاك شوند تا دادههای صحيحي در انبار دادهها وارد شوند. نياز به دادههای تاريخي يكي از موارد مهم درشيوه انبار دادههاست. دادههای تاريخي برای تحليل روند كسب وكارضروری هستند. البته هزينه نگهداری اين گونه دادهها نيز بايد مورد توجه قرار گيرد. بعلاوه، دادههای انبار دادهها ثابت هستند، براي مثال دسترسي به DWH از نوع خواندني است. انجام اصلاحات در اين دادهها فقط هنگامي صورت ميگيرد كه اصلاحات دادههای منبع در انبار انتشار يابند. DWH دادههای ديگری به نام دادههای اشتقاق يافته (derived data) دارد. اين دادهها به طور صريح در منابع عملياتي ذخيره نميشوند، بلكه در حين بعضي از فرايندها از دادههای عملياتي، اشتقاق مييابند. برای مثال دادههای فروش را ميتوان در سطوح مختلف (هفتگي، ماهانه، فصلي) در انبار ذخيره نمود.
سيستمهاي انبار دادهها
سيستم انبار دادهها (DWS) شامل انبار دادهها و همه مولفههايي است كه براي ساخت، دستيابي و نگهداری DWH به كار ميروند. انبار دادهها بخش مركزی سيستم انبار دادهها را تشكيل ميدهد. گاهي اوقات انبار دادهها حجم عظيمي از اطلاعات را در واحدهای منطقي كوچكتر به نام Data Mart نگهداري ميكند. مولفه آماده سازی، مسووليت كسب يا دريافت دادهها را بر عهده دارد. اين مولفه شامل همه برنامهها وبرنامههای كاربردیای است كه مسوول استخراج دادهها از منابع عملياتي هستند. مولفه دستيابي شامل برنامههای كاربردی مختلف (OLAP يا برنامههای كاربردی داده كاوی) است كه امكان استفاده از اطلاعات ذخيره شده در انبار دادهها را فراهم ميآورند.
مولفه مديريت Metadata، وظيفه مديريت، تعريف و دستيبابي به انواع مختلف Metadata را بر عهده دارد. در اصل ،Metadata "دادههايي درباره دادهها" يا "دادههايي است كه مفهوم دادهها را توصيف ميكنند". انواع مختلف Metadata در انبار دادهها وجود دارند. مثلا اطلاعاتي درباره منابع عملياتي، ساختار دادههاي DWH و كارهايي كه در حين ساخت، نگهداري و دستيبابي به DWH انجام ميشوند. نياز به Metadata شناخته شده است. پياده سازي يك DWS منسجم ،كار پيچيده و دشواري است و شامل دو فاز مي باشد. درفاز اول كه پيكربندي DWS نام دارد، ديدگاه مفهومي انبار دادهها مطابق با نيازمنديهای كاربر مشخص ميشود. سپس منابع دادهای دخيل و روش استخراج و بار گذاري در انبار دادهها تعيين ميگردد. سرانجام، درباره پايگاه دادههای مورد نظر و روشهای دستيبابي دادهها تصميم گيری خواهد شد. پس از بار گذاري اوليه، در فاز عمليات DWS بايد دادههای انبار دادهها به منظور منظم refresh شوند.
طراحي انباردادهها
روشهای طراحي انباردادهها امكان پردازش كارآمد query را برروي حجم عظيمي از دادهها فراهم ميآورند. نوع ويژهای از الگوی پايگاه دادهها به نام star برای مدل سازی انباردادههای چند بعدی به كار ميرود. در اين حالت، پايگاه دادهها از يك جدول مركزی واقعيت يا fact و جداول چند بعدي تشكيل شده است. جدول واقعيت حاوی tuple هايي است كه بيانگر واقعيتهاي كسب و كار مانند فروش يا عرضه هستند. هر tuple جدول واقعيت به tupleهای جدول چند بعدي اشاره دارد. هرtuple جدول چند بعدي مواردي نظير محصولات، مشتريان، زمان و فروشنده را نشان ميدهد.
انباردادههای مجازی
هدف انباردادههای مجازی، پياده سازي سريع انباردادهها بدون نياز به ذخيره سازي و نگهداری كپيهاي متعدد از دادههای منبع است. اغلب، انباردادههاي مجازی به سازمانها كمك ميكند تا به نياز واقعي كاربران نهايي پي ببرند. كاربران نهايي ميخواهند به طور مستقيم به دادههاي منبع بي درنگ با كمك ابزارهای توانمند شبكهای دسترسي پيدا كنند. معايب اين روش عبارتند از:
- كيفيت و سازگاري دادهها تضمين نميشود. زيرا فعاليتهای آماده سازی دادهها صورت نميگيرند.
- به طور معمول، دادههای تاريخي وجود ندارند.
- زمان دسترسي كاربر نهايي بسته به وجود يا عدم وجود منابع عملياتي، بار شبكه و پيچيدگي درخواست، غير قابل پيش بيني است.