انبار داده ها — موتور محرکه‌ی داده‌محوری در دنیای دیجیتال

انبار داده

با رشد روز افزون حجم و نوع داده، نیاز به یک سیستم ذخیره سازی و بازیابی این حجم از داده کاملاً محسوس بود. از این ایده انبار داده ها یا Data Warehouse مطرح و پیاده سازی شد.

انباره های داده، داده ها را در فضای چند بعدی تعمیم می دهند و یکپارچه می کنند. برای ساخت انباره های داده لازم است داده ها پاکسازی، یکپارچه و تبدیل شوند. این مجموعه عملیات یکی از مهم ترین گام های پیش پردازش برای داده کاوی محسوب می شود.

به علاوه انبار داده، ابزارهای پردازش تحلیلی برخط را فراهم می سازد، تا کاربر گونه ای از تحلیل تعاملی با داده‌های چند بعدی و ساختار متفاوت را استفاده کند. انبار داده یک ساختار مهم برای تحلیل داده ها و آنالیز برخط می باشد که گام ضروری در فرایند کشف دانش است. در ادامه به معرفی انبار داده، تعریف پایه ای آن، تفاوت آن با پایگاه داده و مدل های انبار داده ها خواهیم پرداخت.

انبار داده‌ها چیست؟

انبار داده‌ها، سیستمی برای ذخیره‌سازی و مدیریت حجم عظیمی از داده‌ها است که از منابع مختلف جمع‌آوری شده‌اند. این سیستم‌ها امکان دسترسی و تحلیل داده‌ها را برای کمک به تصمیم‌گیری‌های استراتژیک در سازمان‌ها فراهم می‌کنند. اهمیت انبار داده‌ها در دنیای امروز که داده به عنصری حیاتی در تمامی بخش‌های کاری تبدیل شده است، بیش از پیش افزایش یافته است.

تصویری از شمای انبار داده ها

انبار داده ها یک معماری و ابزارهایی را برای مدیران عمدتاً تجاری مهیا می سازد تا به کمک آنها قادر باشند داده های خود را بصورت سیستماتیک سازماندهی کنند و تصمیمات راهبردی بگیرند. انباره داده های به مخزنی از داده ها اشاره می کند که به صورت جدا از یک پایگاه داده ها سازمانی نگهداری می شود. سیستم انبار داده با فراهم آوردن یک ساختار از داده های دارای تاریخ یکپارچه شده جهت تحلیل، پردازش اطلاعات را هدفمندتر کند.

طبق نظر ویلیام اینمن William H. Inmon یکی از بنیانگذاران سیستم های انبار داده ها، یک انبار داده مجموعه ای از داده های موضوع گرا، یکپارچه شده، دارای متغییر زمانی، و مانایی است که در فرآیند تصمیم گیری به مدیران کمک می کند.

ویلیام اینمن William H. Inmon

این چهار ویژگی در کنار هم انبار داده ها را از دیگر مخازن داده ها مانند سیستم داده ی رابطه ای، سیستم های پردازش تراکنش و سیستم فایل ها متمایز کند. حال نگاه مختصری به این چهار ویژگی می اندازیم:

  • موضوع گرا: یک انبار داده حول یک موضوع اصلی نظیر مشتری، محصول، با فرآیند فروش سازماندهی می شود و به جای تمرکز بر روی عملیات روزانه و تراکنش ها، بر روی مدل کردن و تحلیل داده ها برای اتخاذ تصمیم تمرکز دارد. از این رو انبار داده ها با کنار گذاشتن داده های غیر ضروری یک دیده ساده و مختصر از موضوع را فراهم می کند.
  • یکپارچه شده: انبار داده ها با یکپارچه سازی چندین منبع داده ناهمگن مانند پایگاه داده های رابطه ای، فایل های مختلف و رکورد های تراکنشی آنلاین ساخته می شود. با اعمال تکنیک های پالایش و یکپارچه سازی داده ها، ناسازگاری های موجود رفع می شوند.
  • متغییر های زمانی: داده های اضافی در کنار داده های انبارداده ها ذخیره می شوند که حاوی ویژگی زمان است که بصورت صریح یا تلویحی یک نگاه زمانی به داده های می دهد.
  • مانایی: یک انبار داده یک مخزن فیزیکی مجرا است که از داده های حاصل از تراکنش ها و عملیات ها تشکیل شده و این ویژگی باعث می شود دیگر نیازی به فرایندهای پردازش تراکنش ها، مرمت و کنترل همزمانی نباشد. بطور معمول یک انبار داده تنها دو عملیات بارگذاری و دسترسی به داده ها لازم دارد.

تفاوت میان پایگاه داده های عملیاتی و انبار داده ها

  1. یک پایگاه داده عملیاتی یک سیستم مشتری گرا است که برای پردازش از تراکنش و پرسش استفاده می کند که کاربران آن کارمندان دفتری، مشتریان هستند در صورتی که انباره داده ها یک سیستم بازارگرا که کاربران آن مدیران و تحلیل گران سطوح مختلف هستند.
  2. یک پایگاه داده عملیاتی داده های جزئی را مدیریت می کند که نمی توان از آنها برای تصمیم گیری استفاده کرد مانند نام ها، مقادیر عددی و دیگر جزئیات، در صورتی که انبار داده ها محتویات زماندار مدیریت کرده و امکاناتی برای خلاصه سازی و تجمیع داده ها فراهم می کند که برای تصمیم گیری مناسب ترند.
  3. در پایگاه داده های عملیاتی از مدل هایی مانند مدل های رابطه ای یا شی گرا پیروی می کند در حالی که مدل هایی مانند ستاره ای و برف گونه ای برای چنین انبار داده های موضوع گرایی استفاده می شوند.
  4. پایگاه داده های عملیاتی شامل تراکنش های کوتاه و تجزیه پذیرش هستند که نیاز به کنترل هایی برای همزمانی و مرمت نیاز دارند در صورتی که در انبار داده ها بیشتر اوقات فقط عملیات خواندن اطلاعات زماندار اجرا می شود.

علاوه بر موارد اصلی فوق این دو مدل در ویژگی هایی مانند تعداد کاربران، حجم داده ها، اولویت ها، روش های دسترسی باهم تفاوت دارند.

مدل های انبار داده ها

از نظر معماری سه مدل برای انبارداده ها وجود دارد که عبارتند از انبار سازمانی، دیتا مارت و انبار مجازی

  • انبار سازمانی: این مدل از انبار داده ها کلیه اطلاعات در مورد تمام موضوعات مطرح در سازمان را جمع آوری می کند که ممکن است حجم بسیار زیادی نیاز داشته باشد و ساختارهای پیچیده ای برای تحلیل داده ها نیاز دارد و از این جهت طراحی و ساخت آن ممکن است سالها طول بکشد.
  • دیتامارت: یک دیتا مارت حاوی زیر مجموعه ای از داده های سازمانی است و برای گروه خاصی از کاربران ارزشمند است و به موضوعات منتخبی محدود می شود و داده ها در آن خلاصه شده هستند.
  • انبار مجازی: یک انبار مجازی مجموعه ای از دیده هیات که بر روی پایگاه داده های عملیاتی تعریف می شود. برای پردازش موثر پرسش تنها برخی از دیده ها ساخته می شوند. ساخت یک انبار مجازی راحت است اما به ظرفیت زیادی بر روی سرویس دهنده های پایگاه داده ای عملیاتی نیاز دارد.

نتیجه گیری

یک انبار داده مجموعه ای از داده های موضوع گرا، یکپارچه شده، دارای متغیر زمانی و مانایی است که برای پشتیبانی از فرآیند اخذ تصمیمات مدیران سازمان دهی می شود. چندین عامل برای تمایز میان انباره های داده و پایگاه داده های عملیاتی وجود دارد که مهمترین آنها گونه های مختلف داده هاست که در اولی نگاه بازارگرا و مدیریتی و در دومی مشتری گرا و کاربر محور است.

میزان رضایتمندی
لطفاً میزان رضایت خودتان را از این مطلب با دادن امتیاز اعلام کنید.
[ امتیاز میانگین 5 از 1 نفر ]
اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا