صفحه 1:
کارگاه تخصصم, آعیزشر,
Ul wlnay5 qued5 ab
ارائه دهنده : بهشید بهکمال
607 1 8 65 8 لا ۲ ۲ 115515
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ نو ن
29/10/88
صفحه 2:
مقدمه اي بر داده کاوي (تعریف؛ تاریخچه و مفاهیم)
جایگاه داده كاوي در فرایند کشف دانش
جایگاه داده كاوي در سازمان
مروری بر روشهاي داده كاوي
مطالعه موردي: کاربرد داده کاوی در 0 شرکت بیمه
>
۰
2
7”
2
۰
2
2 ل
2
۰
۰
4
3-9
2
a
صفحه 3:
* گسترش سیستم های پایگاه داده و ابزارهای متعدد برای
ذخیره حجم بالای داده ها
هزینه بالای انجام عملیات روی حجم انبوه داده از نظر نیروی
انسانی و مادی
نیاز به روشهایی خودکار برای کشف دانش با کمترین دخالت
کاربر
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 4:
ایجاد سیستم ها ی جمع آوری و مدیریت داده ها توسط 0۳6 ,1181/1
* ذخیره داده ها روی دیسک ها و کامپیوترها
اد زبان پرس و جو برای تهیه گزارشات
اخص گذاری و سازماندهی داده ها با 1013115 های 5256 , Oracle 0182
بازيابى بويا در سطح ركورد (ميزان فروش يك کاا در یک شعبه بصورت روزانه)
ایجاد پایگاه داده های چند بعدی ۱۷۵۲۵۲0056 2214 و 0141
* بازیابی پویا در چند سطح (با امکان 000 (Drill
Jy Sia eo رخدادهایگ_ذشته میدهد وین میتولند بكويد جرا لتفاقلفتاده و
در حال حاضر
* ابزارهای پیشرفته مانتد 9۸5 ,96 ,عصناصعصم/9۳95
* کشف الگوهای جدید در پایگاه داده ها
* بازيابى بويا با نكاه يبشرو به آينده
* فروش يك كالا در ماه آينده در يك شعبه خاص جقدر است؟ و جرا؟
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ و ن
صفحه 5:
تعر یف داده کاوی
*... ۲۳6 ۲۱۵۳-۲۲۱۷۱۵1 0۲۵6655 ۴
identifying valid, ;
potentially useful, and
ultimately understandable
patterns in data...”
Fayyad, Piatetsky-Shapiro, Smyth [1996]
صفحه 6:
صفحه 7:
حجم انبوه داده (ترابایت)
- روش های آماری مبتنی بر نمونه گیری است.
* داده های با حجم زیاد و با ابعاد مختلف
- تصاویر و عکسها
- داده های ژنتیکی
کشف اطلاعات نهفته و الگوی های ناشناخته مفید از درون حجم انبوه
داده ها
- الگوی مفید. مدلی برای توصیف ارتباط میان زیر مجموعه ای از داده
هاست و معتبر . ساده , قابل فهم و جدید است.
حجم بیشتر داده ها و روابط پیچیده تر
- دسترسی به اطلاعات نهفته در میان داده ها مشکل تر
- نقش داده کاوی روشن تر
ها هه ۵ ۵ ۵۵۵ ۵0۵۵۵
صفحه 8:
صفحه 9:
جایگاه داده داده کاوی در ساز مان
Increasing potential
tosupport
busines: decisions ماده
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
Statistical Analysis, Querying and Reporting
OLAP MDA
Data Sources
Paper, Files, Information lers, Database Systems, OLTP
۵ 0 ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 10:
نگهداری و پردازش حجم انبوه داده ها
فرمت های مختلف داده
نیاز به عملیات و تکنیک های مختلف از قبیل تعریف صفات جدید با انجام عملیات
ریاضی و منطقی روی صفات موجود
مقادیر نامعتبر و بی کیفیت داده های خام
- استفاده از روشها و الگوریتم های مختلف برای پاکسازی داده
* روش های کارا برای جستجو
* بروز رسانی و یکپارچگی داده ها
ها هه ۵ ۵ ۵۵۵ ۵0۵۵۵
صفحه 11:
کاربردهای داده کاوی
* خرده فروشی
- تعیین الگوهای خرید مشتریان
پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
پزشکی
پیشگویی میزان موفقیت اعمال جراحی بر اساس شرایط بیماران
بانکداری
پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری
تشخیص مشتریان ثابت
هه
۰
2
”7
a
۰
2
ل 2
۰
۰
۰
4
2
>2
a
صفحه 12:
با داده کاوی می تواآن ...
پیش بینی وقایع آینده بر اساس روند گذشته
طبقه بندی اشیا و افراد برای شناسایی الگو
دسته بندی اشیا و افراد بر اساس صفات و ویژگی ها
شناسایی وقایعی که احتمال دارد همزمان رخ دهند
شناسایی وقایعی که یکی باعث وقوع دیگری می شود
>
۰
2
7”
2
۰
2
2 ل
2
۰
۰
4
3-9
2
a
صفحه 13:
بندي روشهاي داده كاة
روش های داده کاوی
لل 0
توصیف کننده پیش بینی کننده
Predictive Descriptive
خحجبمر —
کشف الگوی ترتیبی کشف قانون وابستگی خوشه بنذكا | تشخيص و کشف خطا طبقه بندی
دجت Orgared جا ممه Cheri
د بص سيا عرد تست
۵اه هه ۵ ۵ ۵۵۵ ۵۵ ۵0۵
صفحه 14:
*طبقه بندی اشیا و افراد برای شناسایی الگو
*یاد گیری نظارت شده
صفحه 15:
eo
Sr
Gave ‘toro Oe
Owe
Oren Ovoraed
۵ 0
3 < 0
Yes
eet whoa te predetor vartdbles ure coeypriod
صفحه 16:
م20 لبهي
Gotur
صفحه 17:
کار بردهای طبقه بندی
* بازاریابی مستقیم
شناخت تقلب - 161601100 ۳۲۲۵۱0
شناسایی و طبقه بندی مشتری
ارسال کاتالوگ
صفحه 18:
یادگیری نظارت نشده
۳ بندی طبیعی داده های نامتجانس به تعدادی خوشه براساس خصوصیات
ae
پیوستگی داخلی هر دسته و همبستگی خارجی کم با سایر دسته ها
براساس نزدیکی فاصله میان رکوردها و درصد قرار گرفتن داده های ورودی در
خوشه ها
OOO:
‘ تفاوت با طبقه بندی
- نامعین بودن خوشه ها در شروع کار
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 19:
- نامناسب برای داده های با خصوصیات نامربوط و دارای افزونگی
- دقت کمتر از روشهای دیگر
* کاربرد
— تقسیم بندی بازار محصول
— شناسایی مشتریان
7 بازاریابی مستقیم
>
۰
2
7”
2
۰
2
2 ل
۰
۰
۰
4
3-9
2
a
صفحه 20:
کشف و تولید الگوهایی که وقوع یک رخداد را براساس واقعه دیگر پیش
گویی کند
درجه اطمینان قانون " پنیر «- نان " ۸۸۰ است.
در 1۸۰ تراکنشهای خرید . اگر نان وجود داشته
باشد . پنیر نیز وجود دارد .
تنها در ۰/۰۰۰۱ درصد از تراکنشهای خرید .
شیر و پیچ گوشتی با هم باشند . بنابراین
درجه پشتیبانی برای قانون زیر پایین است:
صفحه 21:
کار بردهای کشف قانون و ابستگی
* مدیریت موجودی و انبار
تبلیغات و بازاریابی چند کال
* مدیریت چیدمان قفسه های فروشگاه
۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵
صفحه 22:
* _کشف تغییرات در داده ها براساس رفتار نرمال گذشته
* مثال کاربرد
- تشخیص حمله یا نفوذ در شبکه
- کشف الگوهای خرید غیرنرمال توسط کارت های اعتباری
۵ 0 ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵۵
صفحه 23:
العم ee
۵. کشف الکوی تر تببسی
* شناسایی ترتیب وقایع براساس اطلاعات گذشته
*_مثال:۴۰/ مشتریان که کت خاکستری خریده اند. شش ماه بعد شلوار
مشکی خریده اند.
نیازبه
- داده های کامل, دقیق و معتبر
- برنامه ریزی تولید بهتر
- مدیریت بهینه انبار
oF
a
2
Ze
2
۰
2
5
۰
2
و
هه
1
1
۰
صفحه 24:
كر لول بای كاري ; of WORM ی
a
هو ة هه ههه ة وووة ووه
صفحه 25:
صفحه 26:
مطالعه موردی: شر کت بیمه
* جامعه آماری مورد مطالعه
- داده های سیستم های اطلاعاتی یک شرکت dow شامل dow
بدنه خودرو بیمه باربری و بیمه اتش سوزی
* اطلاعات قراردادهای بیمه نامه ها شامل
۰ ۰ رکورد
- ۶۲ فیلد متمایز
>
۰
2
”7
2
۰
2
ل 2
۰
۰
۰
4
3-9
2
52
صفحه 27:
تحلیل نتایج داده کاوی
درک توزیع پارامترهای مختلف درجامعه آماری
- اغلب بیمه گذاران را افراد (و نه سازمانها) تشکیل می دهند.
- در بیمه آتش سوزی: نرخ رویگردانی مشتری < نرخ جذب مشتری ۱ **
7 در بیمه بدنه خودرو: نرخ رویگردانی مشترى > نرخ جذب مشترى | ©
-
درک خروجی مدلهای داده کاوی ۰
- ارائه تخفیف به مشتری, دلیل اطمینان بخشی برحفظ مشتری برای دوره ٩ ٩
بعد نیست. ۰
- نرخ جذب مشتریان با سابقه خسارت > مشتریان بدون سابقه خسارت ۱
(بر خلاف تصور مدیران)
3-9
2
a
صفحه 28:
تحليل نتايج داده کاوی ...
* تلفیق الگوهای حاصل از مدلهای مختلف و شناخت روابط عمیق
بین رفتارهای مختلف مشتریان
7 بالاترین نرخ جذب مشتری: مشتریان با واسطه (مانند بانک
یا شرکت خودروسازی)
- بیشترین نرخ رویگردانی: همین مشتریان
. نیح
- وجود واسطه ميان مشترى و سازمان توان سازمان در ايجاد
روابط بلند مدت با مشترى واقعى (مصرف كننده) تهديد مى
كند.
>
۰
2
7”
2
۰
2
-
۰
zo
2
4
3-9
2
a
صفحه 29:
داد کاوی مناسب برای
- هر حوزه ای که نیاز به شناسایی الگوی جدید و ارتباط بين
داده ها دارد
داده کاوی موفق
- منابع داده معتبر, با کیفیت و کامل
- انتخاب روش صحیح داده کاوی
هه
۰
2
”7
a
۰
2
ل 2
۰
۰
۰
4
2
>2
a
صفحه 30:
كارگاه تخصصي آموزشي
ارائه دهنده :بهشيـد بهکمـال
29/10/88
سرفصل مطالب درس
مقدمه اي بر داده كاوي (تعريف ،تاريخچه و مفاهيم)
جايگاه داده كاوي در فرايند كشف دانش
جايگاه داده كاوي در سازمان
مروری بر روشهاي داده كاوي
– طبقه بندی
– خوشه بندی
– کشف قانون همبستگی
– تشخیص و کشف خطا
– کشف الگوی ترتیبی
مطالعه موردي :کاربرد داده کاوی در CRMشرکت بیمه
2
مقدمه
گسترش سيستم هاي پايگاه داده و ابزارهای متعدد برای
ذخيره حجم باالي داده ها
هزينه باالی انجام عمليات روی حجم انبوه داده از نظر نيروي
انساني و مادي
نياز به روشهايي خودکار براي کشف دانش با کمترين دخالت
کاربر
3
تاريخچه داده کاوي
4
از 1960
•
•
•
از 1980
•
•
•
از 1990
•
•
•
ایجاد سيستم ها ي جمع آوري و مديريت داده ها توسط IBM, CDC
ذخیره داده ها روی دیسک ها و کامپیوترها
بازیابی ایستا (محاسبه کل سود یک فروشگاه در 5سال گذشته)
ایجاد زبان پرس و جو برای تهیه گزارشات از پايگاه داده
شاخص گذاري و سازماندهي داده ها با DBMSهاي DB2 ، Oracle ، Sybase
بازیابی پویا در سطح رکورد (ميزان فروش يك كاال در يك شعبه بصورت روزانه)
ايجاد پایگاه داده های چند بعدی Data Warehouseو OLAP
بازیابی پویا در چند سطح (با امكان ) Drill Down
OLAPاRطRالعاتکRRامRلیاز رRخدادRهایگRRذشRته مRیدRهد ،وRلRینRRمیتRRRواRند بRRRگوید چRرا اRتRفاقاRفRتادRه Rو
یا پRRRیشبRRRینیکRRRند.
در حال حاضر
• ابزارهای پیشرفته مانندSPSS/Clementine, SGI, SAS
• کشف الگوهاي جديد در پايگاه داده ها
• بازیابی پویا با نگاه پیشرو به آینده
• فروش یک کاال در ماه آینده در یک شعبه خاص چقدر است؟ و چرا؟
تعريف داده کاوي
“…The non-trivial process of
identifying valid, novel,
potentially useful, and
ultimately understandable
patterns in data…”
Fayyad, Piatetsky-Shapiro, Smyth [1996]
5
حوزه هاي مرتبط با داده كاوي
Machin
e
Learnin
g
Visualization
Data Mining
and
Knowledge
Statistics Discovery
Databases
6
چرا و چه وقت داده کاوي؟
7
حجم انبوه داده (ترابایت)
– روش های آماری مبتنی بر نمونه گیری است.
داده های با حجم زیاد و با ابعاد مختلف
– تصاویر و عکسها
– داده های ژنتیکی
کشف اطالعات نهفته و الگوی های ناشناخته مفید از درون حجم انبوه
داده ها
– الگوي مفيد ،مدلي برای توصیف ارتباط ميان زير مجموعه ای از داده
هاست و معتبر ،ساده ،قابل فهم و جديد است.
حجم بیشتر داده ها و روابط پيچيده تر
– دسترسي به اطالعات نهفته در ميان داده ها مشکل تر
– نقش داده کاوي روشن تر
کاوی در فرايند کشف دانش
داده
جایگاه
I
Integration
Da
ta
Raw Data
DATA
Ware
house
sfo
rm
a ti o
n
Target
Data
g
__ __ __
__ __ __
__ __ __
Transformed
Data
Knowledge
Patterns
and
Rules
Understanding
Se
& lecti
Cl on
ea
nin
g
Tr
an
Mi
nin
n
& terpr
E v eta
alu tion
atio
n
8
جايگاه داده داده كاوي در سازمان
9
چالش های داده کاوی
نگهداری و پردازش حجم انبوه داده ها
فرمت هاي مختلف داده
– نیاز به عمليات و تکنيک های مختلف از قبیل تعريف صفات جديد با انجام عمليات
رياضي و منطقي روي صفات موجود
مقادیر نامعتبر و بی کیفیت داده های خام
– استفاده از روشها و الگوریتم های مختلف برای پاکسازی داده
روش های کارا برای جستجو
بروز رسانی و یکپارچگی داده ها
10
کاربردهاي داده کاوي
خرده فروشي
– تعيين الگوهاي خريد مشتريان
بيمه
– پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان
پزشکي
– پيشگويي ميزان موفقيت اعمال جراحي بر اساس شرایط بیماران
بانکداري
– پيش بيني الگوهاي کالهبرداري از طريق کارتهاي اعتباري
– تشخيص مشتريان ثابت
11
با داده كاوي مي توان ...
پیش بینی وقایع آینده بر اساس روند گذشته
طبقه بندی اشیا و افراد برای شناسایی الگو
دسته بندی اشیا و افراد بر اساس صفات و ویژگی ها
شناسایی وقایعی که احتمال دارد همزمان رخ دهند
شناسایی وقایعی که یکی باعث وقوع دیگری می شود
12
طبقه بندي روشهاي داده كاوي
روش های داده کاوی
پیش بینی کننده
Predictive
توصیف کننده
ِ escriptive
D
کشف الگوی ترتیبی
کشف قانون وابستگی
خوشه بندی
Sequential Pattern
Discovery
Association Rule
Discovery
Clustering
13
تشخیص و کشف خطا
Deviation Detection
طبقه بندی
Classification
.1طبقه بندی
•طبقه بندی اشیا و افراد برای شناسایی الگو
•یادگیری نظارت شده
درخت تصمیم شبکه عصبی.....
14
مثالی از طبقه بندی با درخت تصمیم
l
l
ica
ica
r
r
o
o
teg
teg
a
a
c
c
Tid Re fu n d
n
co
s
ou
u
tin
s
lc as
Refund
Ma ri t a l
St at u s
Taxab l e
In c o me
Ch ea t
1
Yes
Sin gle
125K
No
2
No
Ma rried
100K
No
3
No
Sin gle
70K
No
4
Yes
Ma rried
120K
No
5
No
Divorced
95K
Ye s
6
No
Ma rried
60K
No
7
Yes
Divorced
220K
No
8
No
Sin gle
85K
Ye s
9
No
Ma rried
75K
No
Sin gle
90K
Ye s
10 No
Splitting Attributes
Yes
No
NO
Mar St
Single, Divorced
Tax Inc
< 80K
NO
Married
NO
> 80K
YES
Best when the predictor variables are categorical
10
15
مثالی از طبقه بندی با شبکه عصبی
l
l
us
ir ca
ir ca
o
o
o
tinu
s
n
ta eg
ta eg
lc as
co
c
c
Tid Refu n d Mari t al
St a t u s
Taxa b l e
In c o me Ch eat
1
Yes
Single
125K
2
No
Married
3
No
4
Refu n d
Ma ri t a l
St a t u s
Ta xa b l e
In c o me Ch e a t
No
No
Sin g l e
75K
?
100K
No
Yes
Ma rrie d
50K
?
Single
70K
No
No
Ma rrie d
150K
?
Yes
Married
120K
No
Yes
Di vorced 90K
?
5
No
Divorced 95K
Yes
No
Sin g l e
40K
?
6
No
Married
No
No
Ma rrie d
80K
?
60K
10
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10 No
10
Single
90K
Yes
Training
Set
Learn
Classifier
Test
Set
Model
16
کاربردهای طبقه بندی
بازاریابی مستقیم
شناخت تقلب Fraud Detection -
شناسایی و طبقه بندی مشتری
ارسال کاتالوگ
17
.2خوشه بندی
يادگيري نظارت نشده
دسته بندی طبیعی داده های نامتجانس به تعدادی خوشه براساس خصوصيات
مشابه
پيوستگي داخلي هر دسته و همبستگي خارجي کم با سایر دسته ها
براساس نزدیکی فاصله ميان رکوردها و درصد قرار گرفتن داده هاي ورودي در
خوشه ها
تفاوت با طبقه بندی
– نامعین بودن خوشه ها در شروع کار
18
خوشه بندی ...
معایب
– نامناسب برای داده های با خصوصيات نامربوط و دارای افزونگي
– دقت کمتر از روشهاي ديگر
کاربرد
– تقسیم بندی بازار محصول
– شناسايي مشتريان
– بازاريابي مستقيم
19
.3کشف قانون وابستگی
کشف و تولید الگوهایی که وقوع یک رخداد را براساس واقعه دیگر پیش
گویی کند
Confidence
درجه اطمینان قانون " پنير → نان " %80است.
در %80تراکنشهاي خريد ،اگر نان وجود داشته
باشد ،پنير نيز وجود دارد .
Support
تنها در . /0001درصد از تراکنشهاي خريد ،
شير و پيچ گوشتي با هم باشند ،بنابراين
درجه پشتيباني براي قانون زیر پایین است:
" پيچ گوشتي → شير "
20
Items
TID
Bread, Coke, Milk
1
Beer, Bread
Beer, Coke, Diaper, Milk
Beer, Bread, Diaper, Milk
Coke, Diaper, Milk
2
3
4
5
Rules
RulesDiscovered:
Discovered:
}{Milk
>{Milk}--
}-->{Coke
}{Coke
{Diaper,
}{Diaper,Milk
>Milk}--
>--
}{Beer
}{Beer
کاربردهای کشف قانون وابستگی
مدیریت موجودی و انبار
تبلیغات و بازاریابی چند کاال
مدیریت چیدمان قفسه های فروشگاه
21
.4تشخیص و کشف خطا
کشف تغییرات در داده ها براساس رفتار نرمال گذشته
مثال کاربرد
– تشخيص حمله يا نفوذ در شبكه
– کشف الگوهای خرید غیرنرمال توسط کارت های اعتباری
22
.5کشف الگوی ترتیبی
شناسایی ترتیب وقایع براساس اطالعات گذشته
مثال %40:مشتریان که کت خاکستری خریده اند ،شش ماه بعد شلوار
مشکی خریده اند.
نیازبه
– داده های کامل ،دقیق و معتبر
نتیجه
– برنامه ریزی تولید بهتر
– مدیریت بهینه انبار
چرخه مديريت ارتباط با مشتري
25
مطالعه موردی :شرکت بیمه
جامعه آماری مورد مطالعه
– داده های سیستم های اطالعاتی یک شرکت بیمه شامل بیمه
بدنه خودرو ،بیمه باربری و بیمه آتش سوزی
اطالعات قراردادهای بيمه نامه ها شامل
– 17000رکورد
– 62فيلد متمايز
26
تحليل نتایج داده كاوي
درک توزیع پارامترهای مختلف درجامعه آماری
– اغلب بیمه گذاران را افراد (و نه سازمانها) تشکیل می دهند.
– در بیمه آتش سوزی :نرخ رویگردانی مشتری < نرخ جذب مشتری
– در بیمه بدنه خودرو :نرخ رویگردانی مشتری > نرخ جذب مشتری
درک خروجی مدلهای داده کاوی
– ارائه تخفیف به مشتری ،دلیل اطمینان بخشی برحفظ مشتری برای دوره
بعد نيست.
– نرخ جذب مشتریان با سابقه خسارت > مشتريان بدون سابقه خسارت
(بر خالف تصور مدیران)
27
تحليل نتایج داده كاوي ...
تلفیق الگوهای حاصل از مدلهای مختلف و شناخت روابط عمیق
بين رفتارهای مختلف مشتریان
– باالترین نرخ جذب مشتری :مشتریان با واسطه (مانند بانک
یا شرکت خودروسازی)
– بیشترین نرخ رويگرداني :همین مشتريان
نتیجه
– وجود واسطه میان مشتری و سازمان توان سازمان در ایجاد
روابط بلند مدت با مشتری واقعی (مصرف کننده) تهدید می
کند.
28
کالم آخر
داد کاوی مناسب برای
– هر حوزه ای که نیاز به شناسایی الگوی جدید و ارتباط بین
داده ها دارد
داده کاوی موفق
– منابع داده معتبر ،با کیفیت و کامل
– انتخاب روش صحیح داده کاوی
29