صفحه 1:
کارگاه تخصصم, آعیزشر,
Ul wlnay5 qued5 ab
ارائه دهنده : بهشید بهکمال
607 1 8 65 8 لا ۲ ۲ 115515
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ نو ن
29/10/88
صفحه 2:
مقدمه اي بر داده کاوي (تعریف؛ تاریخچه و مفاهیم)
جایگاه داده كاوي در فرایند کشف دانش
جایگاه داده كاوي در سازمان
مروری بر روشهاي داده كاوي
مطالعه موردي: کاربرد داده کاوی در 0 شرکت بیمه
>
۰
2
7”
2
۰
2
2 ل
2
۰
۰
4
3-9
2
a
صفحه 3:
* گسترش سیستم های پایگاه داده و ابزارهای متعدد برای
ذخیره حجم بالای داده ها
هزینه بالای انجام عملیات روی حجم انبوه داده از نظر نیروی
انسانی و مادی
نیاز به روشهایی خودکار برای کشف دانش با کمترین دخالت
کاربر
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 4:
ایجاد سیستم ها ی جمع آوری و مدیریت داده ها توسط 0۳6 ,1181/1
* ذخیره داده ها روی دیسک ها و کامپیوترها
اد زبان پرس و جو برای تهیه گزارشات
اخص گذاری و سازماندهی داده ها با 1013115 های 5256 , Oracle 0182
بازيابى بويا در سطح ركورد (ميزان فروش يك کاا در یک شعبه بصورت روزانه)
ایجاد پایگاه داده های چند بعدی ۱۷۵۲۵۲0056 2214 و 0141
* بازیابی پویا در چند سطح (با امکان 000 (Drill
Jy Sia eo رخدادهایگ_ذشته میدهد وین میتولند بكويد جرا لتفاقلفتاده و
در حال حاضر
* ابزارهای پیشرفته مانتد 9۸5 ,96 ,عصناصعصم/9۳95
* کشف الگوهای جدید در پایگاه داده ها
* بازيابى بويا با نكاه يبشرو به آينده
* فروش يك كالا در ماه آينده در يك شعبه خاص جقدر است؟ و جرا؟
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ و ن
صفحه 5:
تعر یف داده کاوی
*... ۲۳6 ۲۱۵۳-۲۲۱۷۱۵1 0۲۵6655 ۴
identifying valid, ;
potentially useful, and
ultimately understandable
patterns in data...”
Fayyad, Piatetsky-Shapiro, Smyth [1996]
صفحه 6:
صفحه 7:
حجم انبوه داده (ترابایت)
- روش های آماری مبتنی بر نمونه گیری است.
* داده های با حجم زیاد و با ابعاد مختلف
- تصاویر و عکسها
- داده های ژنتیکی
کشف اطلاعات نهفته و الگوی های ناشناخته مفید از درون حجم انبوه
داده ها
- الگوی مفید. مدلی برای توصیف ارتباط میان زیر مجموعه ای از داده
هاست و معتبر . ساده , قابل فهم و جدید است.
حجم بیشتر داده ها و روابط پیچیده تر
- دسترسی به اطلاعات نهفته در میان داده ها مشکل تر
- نقش داده کاوی روشن تر
ها هه ۵ ۵ ۵۵۵ ۵0۵۵۵
صفحه 8:
صفحه 9:
جایگاه داده داده کاوی در ساز مان
Increasing potential
tosupport
busines: decisions ماده
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
Statistical Analysis, Querying and Reporting
OLAP MDA
Data Sources
Paper, Files, Information lers, Database Systems, OLTP
۵ 0 ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 10:
نگهداری و پردازش حجم انبوه داده ها
فرمت های مختلف داده
نیاز به عملیات و تکنیک های مختلف از قبیل تعریف صفات جدید با انجام عملیات
ریاضی و منطقی روی صفات موجود
مقادیر نامعتبر و بی کیفیت داده های خام
- استفاده از روشها و الگوریتم های مختلف برای پاکسازی داده
* روش های کارا برای جستجو
* بروز رسانی و یکپارچگی داده ها
ها هه ۵ ۵ ۵۵۵ ۵0۵۵۵
صفحه 11:
کاربردهای داده کاوی
* خرده فروشی
- تعیین الگوهای خرید مشتریان
پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
پزشکی
پیشگویی میزان موفقیت اعمال جراحی بر اساس شرایط بیماران
بانکداری
پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری
تشخیص مشتریان ثابت
هه
۰
2
”7
a
۰
2
ل 2
۰
۰
۰
4
2
>2
a
صفحه 12:
با داده کاوی می تواآن ...
پیش بینی وقایع آینده بر اساس روند گذشته
طبقه بندی اشیا و افراد برای شناسایی الگو
دسته بندی اشیا و افراد بر اساس صفات و ویژگی ها
شناسایی وقایعی که احتمال دارد همزمان رخ دهند
شناسایی وقایعی که یکی باعث وقوع دیگری می شود
>
۰
2
7”
2
۰
2
2 ل
2
۰
۰
4
3-9
2
a
صفحه 13:
بندي روشهاي داده كاة
روش های داده کاوی
لل 0
توصیف کننده پیش بینی کننده
Predictive Descriptive
خحجبمر —
کشف الگوی ترتیبی کشف قانون وابستگی خوشه بنذكا | تشخيص و کشف خطا طبقه بندی
دجت Orgared جا ممه Cheri
د بص سيا عرد تست
۵اه هه ۵ ۵ ۵۵۵ ۵۵ ۵0۵
صفحه 14:
*طبقه بندی اشیا و افراد برای شناسایی الگو
*یاد گیری نظارت شده
صفحه 15:
eo
Sr
Gave ‘toro Oe
Owe
Oren Ovoraed
۵ 0
3 < 0
Yes
eet whoa te predetor vartdbles ure coeypriod
صفحه 16:
م20 لبهي
Gotur
صفحه 17:
کار بردهای طبقه بندی
* بازاریابی مستقیم
شناخت تقلب - 161601100 ۳۲۲۵۱0
شناسایی و طبقه بندی مشتری
ارسال کاتالوگ
صفحه 18:
یادگیری نظارت نشده
۳ بندی طبیعی داده های نامتجانس به تعدادی خوشه براساس خصوصیات
ae
پیوستگی داخلی هر دسته و همبستگی خارجی کم با سایر دسته ها
براساس نزدیکی فاصله میان رکوردها و درصد قرار گرفتن داده های ورودی در
خوشه ها
OOO:
‘ تفاوت با طبقه بندی
- نامعین بودن خوشه ها در شروع کار
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 19:
- نامناسب برای داده های با خصوصیات نامربوط و دارای افزونگی
- دقت کمتر از روشهای دیگر
* کاربرد
— تقسیم بندی بازار محصول
— شناسایی مشتریان
7 بازاریابی مستقیم
>
۰
2
7”
2
۰
2
2 ل
۰
۰
۰
4
3-9
2
a
صفحه 20:
کشف و تولید الگوهایی که وقوع یک رخداد را براساس واقعه دیگر پیش
گویی کند
درجه اطمینان قانون " پنیر «- نان " ۸۸۰ است.
در 1۸۰ تراکنشهای خرید . اگر نان وجود داشته
باشد . پنیر نیز وجود دارد .
تنها در ۰/۰۰۰۱ درصد از تراکنشهای خرید .
شیر و پیچ گوشتی با هم باشند . بنابراین
درجه پشتیبانی برای قانون زیر پایین است:
صفحه 21:
کار بردهای کشف قانون و ابستگی
* مدیریت موجودی و انبار
تبلیغات و بازاریابی چند کال
* مدیریت چیدمان قفسه های فروشگاه
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 22:
* _کشف تغییرات در داده ها براساس رفتار نرمال گذشته
* مثال کاربرد
- تشخیص حمله یا نفوذ در شبکه
- کشف الگوهای خرید غیرنرمال توسط کارت های اعتباری
۵ 0 ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵۵
صفحه 23:
العم ee
۵. کشف الکوی تر تببسی
* شناسایی ترتیب وقایع براساس اطلاعات گذشته
*_مثال:۴۰/ مشتریان که کت خاکستری خریده اند. شش ماه بعد شلوار
مشکی خریده اند.
نیازبه
- داده های کامل, دقیق و معتبر
- برنامه ریزی تولید بهتر
- مدیریت بهینه انبار
oF
a
2
Ze
2
۰
2
5
۰
2
و
هه
1
1
۰
صفحه 24:
كر لول بای كاري ; of WORM ی
a
هو ة هه ههه ة وووة ووه
صفحه 25:
صفحه 26:
مطالعه موردی: شر کت بیمه
* جامعه آماری مورد مطالعه
- داده های سیستم های اطلاعاتی یک شرکت dow شامل dow
بدنه خودرو بیمه باربری و بیمه اتش سوزی
* اطلاعات قراردادهای بیمه نامه ها شامل
۰ ۰ رکورد
- ۶۲ فیلد متمایز
>
۰
2
”7
2
۰
2
ل 2
۰
۰
۰
4
3-9
2
52
صفحه 27:
تحلیل نتایج داده کاوی
درک توزیع پارامترهای مختلف درجامعه آماری
- اغلب بیمه گذاران را افراد (و نه سازمانها) تشکیل می دهند.
- در بیمه آتش سوزی: نرخ رویگردانی مشتری < نرخ جذب مشتری ۱ **
7 در بیمه بدنه خودرو: نرخ رویگردانی مشترى > نرخ جذب مشترى | ©
-
درک خروجی مدلهای داده کاوی ۰
- ارائه تخفیف به مشتری, دلیل اطمینان بخشی برحفظ مشتری برای دوره ٩ ٩
بعد نیست. ۰
- نرخ جذب مشتریان با سابقه خسارت > مشتریان بدون سابقه خسارت ۱
(بر خلاف تصور مدیران)
3-9
2
a
صفحه 28:
تحليل نتايج داده کاوی ...
* تلفیق الگوهای حاصل از مدلهای مختلف و شناخت روابط عمیق
بین رفتارهای مختلف مشتریان
7 بالاترین نرخ جذب مشتری: مشتریان با واسطه (مانند بانک
یا شرکت خودروسازی)
- بیشترین نرخ رویگردانی: همین مشتریان
. نیح
- وجود واسطه ميان مشترى و سازمان توان سازمان در ايجاد
روابط بلند مدت با مشترى واقعى (مصرف كننده) تهديد مى
كند.
>
۰
2
7”
2
۰
2
-
۰
zo
2
4
3-9
2
a
صفحه 29:
داد کاوی مناسب برای
- هر حوزه ای که نیاز به شناسایی الگوی جدید و ارتباط بين
داده ها دارد
داده کاوی موفق
- منابع داده معتبر, با کیفیت و کامل
- انتخاب روش صحیح داده کاوی
هه
۰
2
”7
a
۰
2
ل 2
۰
۰
۰
4
2
>2
a
صفحه 30: