صفحه 1:
2
1
پایگاه داده تحلیلی و معمار ۳
صفحه 2:
ساختار کلی پایگاه داده
صفحه 3:
ساختار کلی پایگاه داده
* پایگاه داده تحلیلی مخزني از اطلاعات جمع
آوري شده از منایع مختلف مي باشد a aS
صورت یک شماي یکپارچه ذخیره مي شود.
. پایگاه داده تحلیلی شامل مراحل زیر مي
باشد :
* پاكسازي داده ها
* انتقال داده ها
* جمع آوري داده ها
* کاهش داده ها
صفحه 4:
صفحه 5:
پاك سازي داده ها 4
پرکردن فيلدهاي خالي
* از بین بردن نويزهاي داده اي
شناسايي داده هاي اشتباه
تصحیح ناسازگاري هاي موجود در بین داده هاي
ورودي
در این بخش عملیات مختلفي براي پاک سازي داده
* نادیده گرفتن تاپلهاي نادرست
صفحه 6:
ياك سازي داده ها -
ادامه
" در اين بخش عمليات مختلفي براي ياك سازي
داده هاي قابل انجام است:
" يركردن فيلدهاي نادرست به صورت دستي
" يركردن فيلدهاي نادرست با يى مقدار مشخص
" يركردن فيلدها با توجه به نوع فيلد و داده هاي
موجود
" يركردن فيلدها با نزديكترين مقدار ممكن
صفحه 7:
یکپارچه سازي داده ها
* ترکیب داده هاي دريافتي از منابع اطلاعاتي مختلف
* استفاده از فرا داده ها براي شناسايي و حذف
افزونگي داده ها
تشخیص و رفع برخوردهاي داده اي
* یکپارچه سازي داده ها از سه فاز كلي تشکیل شده
است:
* شناسايي فيلدهاي یکسان
* شناسايي افزونگي هاي موجود در داده هاي ورودي
* مشخص کردن برخورد هاي داده اي
صفحه 8:
تبديل داده ها
" در اين فازء داده هاي ورودي طي مراحل زير
به شكلي كه مناسب عمل داده كاوي باشند,
در مي آیند:
* از بین بردن نويزهاي داده ها
* تجمیع داده ها
* كلي سازي
* نرمال سازي
* افزودن فيلدهاي جدید
صفحه 9:
تبدیل داده ها -
از بین بردن نويزهاي داده اي :منظور از داده هاي نويزي,
داده هايي هستند که در خارج از بازه مورد نظر قرار مي
گیرند .
مه
براي اصلاح داده هاي نويزي از روشهاي زیر استفاده مي
شود:
استفاده از مقادیر مجاور براي تعیین یک مقدار مناسب براي
فيلدهاي داراي نویز
دسته بندي داده هاي موجود و مقداردهي فیلد داراي داده نويزي
با استفاده از دسته نزدیکتر
* . ترکیب روشهاي فوق با ملاحظات انساني
صفحه 10:
تبدیل داده ها - ادامه
تجمیع داده ها: داده ها به معني بدست آوردن
اطلاعات جدید ا از يب دادة BBL go betes ab 3
lS سازي : كلي سازي به معني دسته بندي داده هاي
موجود برآساس ماهیت و نوع آنها است.
ترمال سازي: منظور از نرمال سازي, تغییر مقیاس داده ها
لست .
افزودن فيلدهاي جدید: گاهي اوقات براي سهولت عمل داده
وي مي توان فيلدهايي به مجموعه فيلدهاي موجود اضافه
[
صفحه 11:
کاهش داده ها 4
" شامل تكنيكهايي براي نمايش كمينه اطلاعات
موجود است.
* اين فاز از سه بخش تشکیل مي شود:
* کاهش دامنه و بعد: فيلدهاي نامربوط, نامناسب و
تكراري حذف مي شوند.
* فشرده سازي داده ها: از تكنيكهاي فشرده سازي براي
کاهش اندازه داده ها استفاده مي شود.
* کدکردن داده ها: داده ها در صورت امکان با پارامترها
و اطلاعات کوچکتر جایگزین مي شوند.
صفحه 12:
داده كاوي 3 تحلیل داده
4 29790 Sle
* داده كاوي فرایند کشف اطلاعات نهفته از
درون حجم بسیار زیاد داده هايي است که در
قالب پایگاه هاي داده اي, انبارهاي داده يا هر
نوع انباره اطلاعاتي ذخیره شده اند.
صفحه 13:
صفحه 14:
معماري پایگاه داده
* معماري در نظر گرفته شده براي پایگاه
داده تحلیلی یک مدل سه لایه است
صفحه 15:
واسط کاربري
* ارتباط با موجودیت هاي خارجي از طریق
وأسظ کاربر انجام مي گیرد.
* به طور كلي مي توان وظایف لایه واسط
كاربري را در سه دسته كلي ورودي و
خروجي و کنترل تقسیم نمود.
صفحه 16:
واسط Sp LS = ادامه
* بخش ورود اطلاعات مسولیت تمامي مدخل هاي
ورودي اطلاعات را بر عهده دارد ۰
8 بخش خروجي اطلاعات شامل تمامي واسط ها و
کنترل هاي لازم براي ارسال داده همابه نهادهاي
خارجي است .
* بش کنترل شامل کنترل هاي لازم بر اطلاعات
ورودي و خروجي است.
* کنترل داده هاي ورودي, کنترل داده هاي خروهي. ست
وقایع و کنترل دسترسي کاربران
صفحه 17:
واسط Sp LS = ادامه
* بش کنترل تناس کقول اي لازم بر
اطلاعات ورودي و خروجي است.
صفحه 18:
واسط کاربري - ادامه و
* بخش کنترل :
* کنترل داده هاي ورودي: این بخش
lS مسول هات ودود ی ae
ورودي مي باشد. ۱
" کنترل داده هاي خروجي: این بخش به طور
ols مسول بررسي صحت و جامعیت داده هاي
خروجي مي باشد.
صفحه 19:
واسط کاربري - امه لب
* بخش کنترل :
۲ کتترل دستترسي وانیت: نیاز به مكانيزمهاي جامع
بررسي کنترل دسترسي به داده هاي ذخیره شده در انباره
داده و به طور كلي تامین امنیت داده اي وجود دارد .
* هویت شناسي : چه کاربراني مجاز به استفاده از سیستم
* مجاز شناسي : حد دسترسي کاربران مجاز چقدر است .
a ثبت وفايع: مسوّل ثبت تمامي فعالیت هاي کاربران یا
wile که توسط مدير سيستم مشخص مي شود مي
صفحه 20:
ad کنترل
* لایه کنترل داده ها رابط بین دو لایه واسط
کاربري و لایه داده اي است و کنترل هاي لازم
براي ارتباط با اين دو بخش را فراهم مي
كند
صفحه 21:
لایه کنترل - ادامه
* کنترل ارتباط با واسط کاربري:
* مسولیت دریافت داده ها از لایه واسط کاربر و
همجنين ارسال داده هاي خروجي به أن از وظايف
* به طور كلي این لایه درخواست ها و داده هاي
ورودي را از لایه واسط کاربر خوانده و به بخش
* وظیفه دیگر این لاه کنترل داده هاي خروجي
ارسالي به واسط کاربري است.
صفحه 22:
لایه کنترل - ادامه gh
* کنترل ارتباط با لایه داده اي :
* وظیفه این لایه فراهم آوردن دسترسي به لایه
داده است.
* کنترل دسترسي و بررسي اجازه هاي لازم براي
صفحه 23:
لایه کنترل - ادامه gh
* کنترل ارتباط با لایه داده اي :
* واسطهاي دسترسي به داده tha
" اين بخش براي ذخیره و بازيابي داده هاي موجود در
لاه داده اق واتتطهايي :وا فراهج ي کند که تخش هاي
دیگر سیستم بتوانند نيازهاي داده اي خود را برطرف
* مكانيزمهاي دسترسي همزمان, کنترل همروندي,
امكان ترميم و ثبت وقايع از تكنيكهايي هستند که در اين
بخش بياده سازي مي شوند..
صفحه 24:
لایه کنترل - ادامه gh
* کنترل ارتباط با لایه داده اي :
* مدیریت و کنترل دسترسي :علاوه بر فراهم آوردن
دسترسي هاي مختلف به داده ها, کنترل دسترسي و
اينكه جه بخش هايي و با چه مجوزهايي مي توانند به
داده ها دسترسي داشته باشند, از وظایف دیگر بخش
کنترل ارتباط با لایه داده اي است .
* مكانيزمهاي دسترسي :
* کنترل دسترسي اجباري
* کنترل دسترسي احتياطي
صفحه 25:
* پالایش داده هاي ورودي و تبدیل آنها به شكلي
استاندارد :
* مسولیت این بخش پالایش داده و تبدیل داده هاي
ورودي به شكلي استاندارد است.
= اين بخش توسط مدير ارتباط با لایه داده اي, داده
ها را از لایه وسط کاربري گرفته و طي مراحل
مختلفي, ناسازگاري بین داده ها را حذف کرده و
آنها را راهي لایه داده اي مي کند.
صفحه 26:
1
عو ۹ ۰۱۶۳ 15
من mer HRA ۶ همعد
لایه کنترل - ادامه
صفحه 27:
6 که ی HEM سب
لایه کنترل - ادامه
صفحه 28:
* ایجاد حجم هاي داده اي و ارایه سرویس به واسط هاي داده
كاوي :
* مسولیت این بخش ایجاد حجم هاي داده اي, مدیریت,
تولید و استفاده از آنهاست.
* حجم داده اي چیست ؟
> سيره پاسخ به پرس وجوها و تهیه گزارش ها
تعدادي زيادي پرس وجو از تعدادي زيادي جدول
ات كه اجرای آنقا زمان گیر است بتابراين علاوه بر استفاده
از ساختارهاي داده اي نرمال باید از ساختارهاي ستاره اي نیز
استفاده كرد .
۰ ساختارهاي ساره اي با تعبیه مکانیزم هاي خلاصه سازي و
تجمیع داده ها با خارج ساختن ساختار از حالت نرمال
امکان گزارش گيري سریعتر را فراهم مي سازد.
صفحه 29:
* ایجاد حجم هاي داده اي و ارایه سرویس به واسط هاي داده
كاوي:
* مزاياي پایگاه داده چند بعدي نسبت به پایگاه داده
رابطه اي :
در پایگاه داده چند بعدي داده ها در سطح بالاتر و هوشمندانه تري
نسبت به پایگاه داده رابطه اي نشان داده مي شوند .
در اين مدل هم رويت و دنبال كردن داده هاي خاص ساده تر
داده ها در قالب ساختار ابعادي نشان داده مي شوند كه با ديدكاه
هاي روزمره ما تطابق بيشتري دارد.
در بايكاه داده جند بعدي با صرف مشاهده یک حجم داده اي مي
توآن اطلاعاتي را راجع به مقاديري که فیلد ها مي توانند بپذیرند
به دست آورد.
صفحه 30:
* ایجاد حجم هاي داده اي و ارایه سرویس به واسط هاي داده
كاوي:
* مزاياي پایگاه داده چند بعدي نسبت به پایگاه داده
رابطه اي :
* تکرار داده ها در حجم هاي داده اي به حداقل مي رسد .
*درپارگاه دادن چند تعذی عملبات داده آي روي حجم هاي ناده آي
سریعتر صورت مي گیرد .
* هدف از ایجاد حجم هاي داده اي دستيابي به یک سري حقایق است
که مي توانند براي مدیران و تحلیل گران مفید باشند :
۴ لبنت جقایفن کهرباینین کی شوید ار پززسی سدع و رازه هاف انق
یا با منشورت با مذیران و تجلیل گران داده های سیستم,منشعخص مي گرند.
صفحه 31:
* ایجاد حجم هاي داده اي و ارایه سرویس به واسط هاي داده
كاوي:
* هدف از ایجاد حجم هاي داده اي دستيابي به یک سري
حقایق است که مي توانند براي مدیران و تحلیل OLS
* براي دستيابي به حقایق مورد نظر جدول هايي را ایجاد مي
شود که داراي دو نوع كلي از فیلدها خواهند بود.
* قیلدهاي گزفته.شده ار جدول هاي:موجود
* فيلدهاي اضافه شده به منظور کشف حقایق
* به جدول هايي که به اين طریق ایجاد خواهند شد جدول حقایق
گفته مي شود.
صفحه 32:
لایه کنترل - ادامه gh
* ایجاد حجم هاي داده اي و ارایه سرویس به واسط هاي
داده کاوي:
* دو شماي كلي sly ایجاد جدول حقایق:
ف شاي ستازه اي
© شماي ذانه برقي
* در جدول حقایق هر کدام از فیلدها که از جدولهاي
موجود گرفته مي شوند یک کلید خارجي براي اين
جدول و کلید اضلي براي جدول:فربوظه خواهند بؤد.
* به هر كدام از آن جدول ها (جدول هايي که یکب ام
فيلدهاي آنها در جدوا حقايق مي باشد) یک بعد براي
جدول حقایق گفته مي شود.
صفحه 33:
* ایجاد حجم هاي داده اي و ارایة تبرونش بة ball
هاي داده کاوي: 2د
صفحه 34:
لایه کنترل - ادامه gh
ثبت وقايع :
" مديريت ثبت وقايع در سيستم بر عهده اين بخش است.
" اين بخش از طريق يى واسط كاربري سياست هاي ثيت
وقابع را از مدير يا مسؤل سيستم كرفته و طبق آن كار
مي كند .
ثبت وقان به صورت يق سيسعم يكبارجة در سيسسم يايكاة
داده تحلیلی اي پیاده سازي شده و همه بخش هاي دیگر
براي ثبت وقابع خود از ماژولهاي این بخش استفاده مي
" وقايع ثبت شده يكي إز ابزارهاي مديريت براي يافتن
شکلات سیستم و پيگيري مسایل امنيتي سیستم است.
صفحه 35:
ثبت وقابع :
يرداختن به جزييات جلو
ثبت وقايع جزئي: در اين روش همه مراحل و
جزييات كا
۰ أين :روش اثبتت: هزينه زماني و حافظه اي بيشتري
نسبت به روش قبل دارد و تنها در صورتي استفاده
مي شود كه نیاز به آن باشد.
* اینکه در هر لحظه از کدام روش استفاده گردد توسط
مدير سيستم تعيين مي شود
صفحه 36:
. ليه كنفرل - امه +
900006-02-26 عاط" ممصت * سوه ول
90606-0۳299 Wosseie Delete Puble O
600062-02-28 Dayan lesen iota PubleO
8008-082۵8 Baraww- Delete Dats
Cubed
صفحه 37:
لایه کنترل - ادامه 8
ted ele woslys lg dons sam eal =
سیستم و کنترل اعمال آنهاست.
9 به طور كلي وظايف اين بخش در سه دسته
زیر تقسیم مي شود:
کنترل هویت: يعني اپنکه مشخص گردد چه
كاربراني مجاز به استفاده از سیستم هستند.
- کنترل دسترسي: کاربران مجاز, چه دسترسي
هايي به کدام داده ها و کدام بخش از سیستم دارند.
*_ مدیریت قواعد: کنترل هویت و کنترل دسترسي و
نیز بخش هاي مختلف سیستم نیاز به قوانيني دارند
که به قوانین كنترلي سیستم معروفند
صفحه 38:
لايه داده +
* فرا داده:
* فرا داده, شناسنامه داده است .
* در فرا داده اطلاعاتي راجع به داده ها نگهداري مي
شود.
* کاربران سیستم مي توانند از اين اطلاعات براي
ارتباط آسانتر با سیستم و شناسايي بهتر داده ها
استفاده نمایند .
* فرا داده مي تواند جوابگوي بسياري از سوالاتي باشد
كه sly بسياري از کاربران در آینده مطرح خواهد شد.
صفحه 39:
لایه داده - ادامه "=
* فرا داده: شامل دو بخش اطلاعاتي
* اطلاعات تكکنيکي: شامل اطلاعاتي است كه به
نگهداري و توسعه سیستم کمک خواهند کرد.
* اطلاعاتي در مورد منبع داده ها
* اطلاعاتي در مورد تبدیلات به کار گرفته شده :
* اضافه کردن فيلدهايي به جداول
* حذف کردن فيلدهايي از جداول
" انتخاب اسامي مشترک براي براي فيلدهاي یکسان در جدول
هاي مختلف
* نرمال سازي جداول
* تغییر نوع داده اي فيلدهاي جدول در صورت لزوم
* کمینه کردن فيلدهاي یک جدول
صفحه 40:
لايه داده
* فرا داده:
* اطلاعات تکنيکي:
* تشریح روشهاي بکار گرفته شده براي پاكسازي داده ها
* مجاز شناسي و احراز هویت
* اطلاعات تجاري:
* ان اطلاعات به کازبران:در قهم بهیر اطلاعات انبازداده قم
خواهند کرد.
* اين بخش شامل اطلاعاتي در مورد پرس و جوهاي موجود,
گزارش هاء تاریخچه اطلاعات و مالکین هاي داده هاي آنبارداده
مي باشد.
صفحه 41:
لایه داده - ادامه of
* ذخیره سازي داده ها :
* در این بخش داده هاي سیستم ذخیره مي شوند .
* داده ها در قالب بانک اطلاعات رابطه اي ساختار
دهي شده و از تكنيكهاي موجود در اين A
برخوردار خواهند بود .
" مساله اساسي در ذخيره سازي داده هاء ساختار
دهي مناسب و اصولي داده ها است .
* منظور از ساختار دهي مناسب و اصولي بهره گيري از
قواعد نرمال سازي, حذف فيلدهاي زاید و افزونه و
حذف بي نظمي هاي مختلف داده اي است.
صفحه 42:
سیستم پایگاه داده تحلیلی
صفحه 43:
مسیر حرکت داده ها 4
* دریافت داده ها :
* داده ها پس از دریافت وارد سیستم انبارداده اي شده و پس
از طي مراحلي به صورت داده هاي پالایش شده نگهداري
مي شوند.
ا
دیگر کاربران سیستم به سیستم اعمال مي شود
* جریان داده ها:
* بسته به اينکه داده ورودي, ماهیت کنترلي داشته باشد یا
نداشته باشد مسیر جداگانه اي را در سیستم طي خواهد کرد
صفحه 44:
مسیر حرکت داده ها -
ادامه +
* جریان داده ها :
alot هاق عترلي به یخن هن مذبریت تور رفتة و
در آنجا پردازش شده و پاسخ داده مي شوند.
" داده هاي غير كنترلي به سمت بخش بالايش هدايت
شده و مسير خود را طي مي كنند.
* داده ها از طریق واسطهايي به پایگاه داده تحلیلی اي
وارد شده و به بخش کنترل ورودي منتقل مي شوند.
* کنترل ورودي نوع داده را تشخیص داده و برخي
فیلترینگ ساده بر روي داده هاي ورودي انجام مي دهد .
* بخش کنترل ورودي پس از پالايش اولیه, داده هاي
ورودي را بر حسب نوع آنها به مسیر اصلي خود هدایت
مي
صفحه 45:
حرکت داده ها -
متسین
ادامه ل
صفحه 46:
مسیر حرکت داده ها -
صفحه 47:
صفحه 48:
مراجع
1-Enrico Franconi, Data Warehouse Models and OLAP
Operations, www.cacs.louisiana.edu/~yxz2646/
cmps566/
2- Developing a Data Warehouse Architecture,
searchoracle.techtarget.com/whitepaperPag
3- Data Warehouse Architecture,
w.indiana.edu/~ ‘Services/DataWarehouse/d
http://w:
ssoverview.htm
4- Data Warehouse Architectures
www.dwinfocenter.org/architeéct.htm
5- Harry Singh, "Interactive Data Warehousing", Prentice
Hall PTR, 1999