صفحه 1:
کارگاه تخصصم, آعیزشر, Ul wlnay5 qued5 ab ارائه دهنده : بهشید بهکمال 607 1 8 65 8 لا ۲ ۲ 115515 ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ نو ن 29/10/88

صفحه 2:
مقدمه اي بر داده کاوي (تعریف؛ تاریخچه و مفاهیم) جایگاه داده كاوي در فرایند کشف دانش جایگاه داده كاوي در سازمان مروری بر روشهاي داده كاوي مطالعه موردي: کاربرد داده کاوی در 0 شرکت بیمه > ۰ 2 7” 2 ۰ 2 2 ‏ل‎ ‎2 ‎۰ ‎۰ ‎4 ‎3-9 ‎2 ‎a

صفحه 3:
* گسترش سیستم های پایگاه داده و ابزارهای متعدد برای ذخیره حجم بالای داده ها هزینه بالای انجام عملیات روی حجم انبوه داده از نظر نیروی انسانی و مادی نیاز به روشهایی خودکار برای کشف دانش با کمترین دخالت کاربر ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵

صفحه 4:
ایجاد سیستم ها ی جمع آوری و مدیریت داده ها توسط 0۳6 ,1181/1 * ذخیره داده ها روی دیسک ها و کامپیوترها اد زبان پرس و جو برای تهیه گزارشات اخص گذاری و سازماندهی داده ها با 1013115 های 5256 , ‎Oracle‏ 0182 بازيابى بويا در سطح ركورد (ميزان فروش يك کاا در یک شعبه بصورت روزانه) ایجاد پایگاه داده های چند بعدی ۱۷۵۲۵۲0056 2214 و 0141 * بازیابی پویا در چند سطح (با امکان 000 ‎(Drill‏ ‎Jy Sia eo‏ رخدادهای‌گ_ذشته می‌دهد وین می‌تولند بكويد جرا لتفاقلفتاده و در حال حاضر * ابزارهای پیشرفته مانتد 9۸5 ,96 ,عصناصعصم/9۳95 * کشف الگوهای جدید در پایگاه داده ها * بازيابى بويا با نكاه يبشرو به آينده * فروش يك كالا در ماه آينده در يك شعبه خاص جقدر است؟ و جرا؟ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ و ن

صفحه 5:
تعر یف داده کاوی *... ۲۳6 ۲۱۵۳-۲۲۱۷۱۵1 0۲۵6655 ۴ identifying valid, ; potentially useful, and ultimately understandable patterns in data...” Fayyad, Piatetsky-Shapiro, Smyth [1996]

صفحه 6:

صفحه 7:
حجم انبوه داده (ترابایت) - روش های آماری مبتنی بر نمونه گیری است. * داده های با حجم زیاد و با ابعاد مختلف - تصاویر و عکسها - داده های ژنتیکی کشف اطلاعات نهفته و الگوی های ناشناخته مفید از درون حجم انبوه داده ها - الگوی مفید. مدلی برای توصیف ارتباط میان زیر مجموعه ای از داده هاست و معتبر . ساده , قابل فهم و جدید است. حجم بیشتر داده ها و روابط پیچیده تر - دسترسی به اطلاعات نهفته در میان داده ها مشکل تر - نقش داده کاوی روشن تر ها هه ۵ ۵ ۵۵۵ ۵0۵۵۵

صفحه 8:

صفحه 9:
جایگاه داده داده کاوی در ساز مان Increasing potential tosupport busines: decisions ‏ماده‎ ‎Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting OLAP MDA Data Sources Paper, Files, Information lers, Database Systems, OLTP ۵ 0 ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵

صفحه 10:
نگهداری و پردازش حجم انبوه داده ها فرمت های مختلف داده نیاز به عملیات و تکنیک های مختلف از قبیل تعریف صفات جدید با انجام عملیات ریاضی و منطقی روی صفات موجود مقادیر نامعتبر و بی کیفیت داده های خام - استفاده از روشها و الگوریتم های مختلف برای پاکسازی داده * روش های کارا برای جستجو * بروز رسانی و یکپارچگی داده ها ها هه ۵ ۵ ۵۵۵ ۵0۵۵۵

صفحه 11:
کاربردهای داده کاوی ‎ *‏ خرده فروشی - تعیین الگوهای خرید مشتریان پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان پزشکی پیشگویی میزان موفقیت اعمال جراحی بر اساس شرایط بیماران بانکداری پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری تشخیص مشتریان ثابت هه ۰ 2 ”7 ‎a‏ ‏۰ ‏2 ‏ل 2 ۰ ۰ ۰ 4 2 >2 ‎a‏

صفحه 12:
با داده کاوی می تواآن ... پیش بینی وقایع آینده بر اساس روند گذشته طبقه بندی اشیا و افراد برای شناسایی الگو دسته بندی اشیا و افراد بر اساس صفات و ویژگی ها شناسایی وقایعی که احتمال دارد همزمان رخ دهند شناسایی وقایعی که یکی باعث وقوع دیگری می شود > ۰ 2 7” 2 ۰ 2 2 ‏ل‎ ‎2 ‎۰ ‎۰ ‎4 ‎3-9 ‎2 ‎a

صفحه 13:
بندي روشهاي داده كاة روش های داده کاوی لل 0 توصیف کننده پیش بینی کننده Predictive Descriptive خحجبمر — کشف الگوی ترتیبی کشف قانون وابستگی خوشه بنذكا | تشخيص و کشف خطا ‏ طبقه بندی دجت ‎Orgared‏ جا ممه ‎Cheri‏ ‏د بص سيا عرد تست ۵اه هه ۵ ۵ ۵۵۵ ۵۵ ۵0۵

صفحه 14:
*طبقه بندی اشیا و افراد برای شناسایی الگو *یاد گیری نظارت شده

صفحه 15:
eo Sr Gave ‘toro Oe Owe Oren Ovoraed ۵ 0 3 < 0 Yes eet whoa te predetor vartdbles ure coeypriod

صفحه 16:
م20 لبهي ‎Gotur‏

صفحه 17:
کار بردهای طبقه بندی * بازاریابی مستقیم شناخت تقلب - 161601100 ۳۲۲۵۱0 شناسایی و طبقه بندی مشتری ارسال کاتالوگ

صفحه 18:
یادگیری نظارت نشده ۳ بندی طبیعی داده های نامتجانس به تعدادی خوشه براساس خصوصیات ‎ae‏ پیوستگی داخلی هر دسته و همبستگی خارجی کم با سایر دسته ها براساس نزدیکی فاصله میان رکوردها و درصد قرار گرفتن داده های ورودی در خوشه ها OOO: ‘ ‏تفاوت با طبقه بندی‎ - نامعین بودن خوشه ها در شروع کار ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵

صفحه 19:
- نامناسب برای داده های با خصوصیات نامربوط و دارای افزونگی - دقت کمتر از روشهای دیگر * کاربرد — تقسیم بندی بازار محصول — شناسایی مشتریان 7 بازاریابی مستقیم > ۰ 2 7” 2 ۰ 2 2 ‏ل‎ ‎۰ ‎۰ ‎۰ ‎4 ‎3-9 ‎2 ‎a

صفحه 20:
کشف و تولید الگوهایی که وقوع یک رخداد را براساس واقعه دیگر پیش گویی کند درجه اطمینان قانون " پنیر «- نان " ۸۸۰ است. در 1۸۰ تراکنشهای خرید . اگر نان وجود داشته باشد . پنیر نیز وجود دارد . تنها در ۰/۰۰۰۱ درصد از تراکنشهای خرید . شیر و پیچ گوشتی با هم باشند . بنابراین درجه پشتیبانی برای قانون زیر پایین است:

صفحه 21:
کار بردهای کشف قانون و ابستگی * مدیریت موجودی و انبار تبلیغات و بازاریابی چند کال * مدیریت چیدمان قفسه های فروشگاه ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵

صفحه 22:
* _کشف تغییرات در داده ها براساس رفتار نرمال گذشته * مثال کاربرد - تشخیص حمله یا نفوذ در شبکه - کشف الگوهای خرید غیرنرمال توسط کارت های اعتباری ۵ 0 ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵ ۵۵

صفحه 23:
العم ‎ee‏ ‏۵. کشف الکوی تر تببسی * شناسایی ترتیب وقایع براساس اطلاعات گذشته *_مثال:۴۰/ مشتریان که کت خاکستری خریده اند. شش ماه بعد شلوار مشکی خریده اند. نیازبه - داده های کامل, دقیق و معتبر - برنامه ریزی تولید بهتر - مدیریت بهینه انبار oF a 2 Ze 2 ۰ 2 5 ۰ 2 ‏و‎ ‏هه‎ ‎1 ‎1 ‎۰

صفحه 24:
كر لول بای كاري ; ‎of WORM‏ ی a هو ة هه ههه ة وووة ووه

صفحه 25:

صفحه 26:
مطالعه موردی: شر کت بیمه * جامعه آماری مورد مطالعه - داده های سیستم های اطلاعاتی یک شرکت ‎dow‏ شامل ‎dow‏ ‏بدنه خودرو بیمه باربری و بیمه اتش سوزی * اطلاعات قراردادهای بیمه نامه ها شامل ۰ ۰ رکورد - ۶۲ فیلد متمایز > ۰ 2 ”7 2 ۰ 2 ل 2 ۰ ۰ ۰ 4 3-9 2 52

صفحه 27:
تحلیل نتایج داده کاوی درک توزیع پارامترهای مختلف درجامعه آماری - اغلب بیمه گذاران را افراد (و نه سازمانها) تشکیل می دهند. - در بیمه آتش سوزی: نرخ رویگردانی مشتری < نرخ جذب مشتری ۱ ** 7 در بیمه بدنه خودرو: نرخ رویگردانی مشترى > نرخ جذب مشترى | © - درک خروجی مدلهای داده کاوی ۰ - ارائه تخفیف به مشتری, دلیل اطمینان بخشی برحفظ مشتری برای دوره ‎٩ ٩‏ بعد نیست. ۰ - نرخ جذب مشتریان با سابقه خسارت > مشتریان بدون سابقه خسارت ۱ (بر خلاف تصور مدیران) 3-9 2 a

صفحه 28:
تحليل نتايج داده کاوی ... * تلفیق الگوهای حاصل از مدلهای مختلف و شناخت روابط عمیق بین رفتارهای مختلف مشتریان 7 بالاترین نرخ جذب مشتری: مشتریان با واسطه (مانند بانک یا شرکت خودروسازی) - بیشترین نرخ رویگردانی: همین مشتریان . نیح - وجود واسطه ميان مشترى و سازمان توان سازمان در ايجاد روابط بلند مدت با مشترى واقعى (مصرف كننده) تهديد مى كند. > ۰ 2 7” 2 ۰ 2 - ۰ zo 2 4 3-9 2 a

صفحه 29:
داد کاوی مناسب برای - هر حوزه ای که نیاز به شناسایی الگوی جدید و ارتباط بين داده ها دارد داده کاوی موفق - منابع داده معتبر, با کیفیت و کامل - انتخاب روش صحیح داده کاوی هه ۰ 2 ”7 ‎a‏ ‏۰ ‏2 ‏ل 2 ۰ ۰ ۰ 4 2 >2 ‎a‏

صفحه 30:

كارگاه تخصصي آموزشي ارائه دهنده :بهشيـد بهکمـال 29/10/88 سرفصل مطالب درس ‏ مقدمه اي بر داده كاوي (تعريف ،تاريخچه و مفاهيم) ‏ جايگاه داده كاوي در فرايند كشف دانش ‏ جايگاه داده كاوي در سازمان ‏ مروری بر روشهاي داده كاوي – طبقه بندی – خوشه بندی – کشف قانون همبستگی – تشخیص و کشف خطا – کشف الگوی ترتیبی ‏ مطالعه موردي :کاربرد داده کاوی در CRMشرکت بیمه 2 مقدمه گسترش سيستم هاي پايگاه داده و ابزارهای متعدد برای ذخيره حجم باالي داده ها هزينه باالی انجام عمليات روی حجم انبوه داده از نظر نيروي انساني و مادي نياز به روشهايي خودکار براي کشف دانش با کمترين دخالت کاربر 3 تاريخچه داده کاوي ‏ ‏ ‏ ‏ 4 از 1960 • • • از 1980 • • • از 1990 • • • ایجاد سيستم ها ي جمع آوري و مديريت داده ها توسط IBM, CDC ذخیره داده ها روی دیسک ها و کامپیوترها بازیابی ایستا (محاسبه کل سود یک فروشگاه در 5سال گذشته) ایجاد زبان پرس و جو برای تهیه گزارشات از پايگاه داده شاخص گذاري و سازماندهي داده ها با DBMSهاي DB2 ، Oracle ، Sybase بازیابی پویا در سطح رکورد (ميزان فروش يك كاال در يك شعبه بصورت روزانه) ايجاد پایگاه داده های چند بعدی Data Warehouseو OLAP بازیابی پویا در چند سطح (با امكان ) Drill Down OLAPاRطRالعاتکRRامRلیاز رRخدادRهایگRRذشRته مRیدRهد ،وRلRینRRمیتRRRواRند بRRRگوید چRرا اRتRفاقاRفRتادRه Rو یا پRRRیشبRRRینیکRRRند. در حال حاضر • ابزارهای پیشرفته مانندSPSS/Clementine, SGI, SAS • کشف الگوهاي جديد در پايگاه داده ها • بازیابی پویا با نگاه پیشرو به آینده • فروش یک کاال در ماه آینده در یک شعبه خاص چقدر است؟ و چرا؟ تعريف داده کاوي “…The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data…” Fayyad, Piatetsky-Shapiro, Smyth [1996] 5 حوزه هاي مرتبط با داده كاوي Machin e Learnin g Visualization Data Mining and Knowledge Statistics Discovery Databases 6 چرا و چه وقت داده کاوي؟ ‏ ‏ ‏ ‏ 7 حجم انبوه داده (ترابایت) – روش های آماری مبتنی بر نمونه گیری است. داده های با حجم زیاد و با ابعاد مختلف – تصاویر و عکسها – داده های ژنتیکی کشف اطالعات نهفته و الگوی های ناشناخته مفید از درون حجم انبوه داده ها – الگوي مفيد ،مدلي برای توصیف ارتباط ميان زير مجموعه ای از داده هاست و معتبر ،ساده ،قابل فهم و جديد است. حجم بیشتر داده ها و روابط پيچيده تر – دسترسي به اطالعات نهفته در ميان داده ها مشکل تر – نقش داده کاوي روشن تر کاوی در فرايند کشف دانش داده جایگاه I Integration Da ta Raw Data DATA Ware house sfo rm a ti o n Target Data g __ __ __ __ __ __ __ __ __ Transformed Data Knowledge Patterns and Rules Understanding Se & lecti Cl on ea nin g Tr an Mi nin n & terpr E v eta alu tion atio n 8 جايگاه داده داده كاوي در سازمان 9 چالش های داده کاوی نگهداری و پردازش حجم انبوه داده ها فرمت هاي مختلف داده – نیاز به عمليات و تکنيک های مختلف از قبیل تعريف صفات جديد با انجام عمليات رياضي و منطقي روي صفات موجود مقادیر نامعتبر و بی کیفیت داده های خام – استفاده از روشها و الگوریتم های مختلف برای پاکسازی داده روش های کارا برای جستجو بروز رسانی و یکپارچگی داده ها 10 کاربردهاي داده کاوي ‏ خرده فروشي – تعيين الگوهاي خريد مشتريان بيمه – پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان ‏ پزشکي – پيشگويي ميزان موفقيت اعمال جراحي بر اساس شرایط بیماران ‏ بانکداري – پيش بيني الگوهاي کالهبرداري از طريق کارتهاي اعتباري – تشخيص مشتريان ثابت ‏ 11 با داده كاوي مي توان ... پیش بینی وقایع آینده بر اساس روند گذشته طبقه بندی اشیا و افراد برای شناسایی الگو دسته بندی اشیا و افراد بر اساس صفات و ویژگی ها شناسایی وقایعی که احتمال دارد همزمان رخ دهند شناسایی وقایعی که یکی باعث وقوع دیگری می شود 12 طبقه بندي روشهاي داده كاوي روش های داده کاوی پیش بینی کننده ‏Predictive توصیف کننده ِ escriptive ‏D کشف الگوی ترتیبی کشف قانون وابستگی خوشه بندی ‏Sequential Pattern ‏Discovery ‏Association Rule ‏Discovery ‏Clustering 13 تشخیص و کشف خطا ‏Deviation Detection طبقه بندی ‏Classification .1طبقه بندی •طبقه بندی اشیا و افراد برای شناسایی الگو •یادگیری نظارت شده درخت تصمیم شبکه عصبی..... 14 مثالی از طبقه بندی با درخت تصمیم l l ica ica r r o o teg teg a a c c Tid Re fu n d n co s ou u tin s lc as Refund Ma ri t a l St at u s Taxab l e In c o me Ch ea t 1 Yes Sin gle 125K No 2 No Ma rried 100K No 3 No Sin gle 70K No 4 Yes Ma rried 120K No 5 No Divorced 95K Ye s 6 No Ma rried 60K No 7 Yes Divorced 220K No 8 No Sin gle 85K Ye s 9 No Ma rried 75K No Sin gle 90K Ye s 10 No Splitting Attributes Yes No NO Mar St Single, Divorced Tax Inc < 80K NO Married NO > 80K YES Best when the predictor variables are categorical 10 15 مثالی از طبقه بندی با شبکه عصبی l l us ir ca ir ca o o o tinu s n ta eg ta eg lc as co c c Tid Refu n d Mari t al St a t u s Taxa b l e In c o me Ch eat 1 Yes Single 125K 2 No Married 3 No 4 Refu n d Ma ri t a l St a t u s Ta xa b l e In c o me Ch e a t No No Sin g l e 75K ? 100K No Yes Ma rrie d 50K ? Single 70K No No Ma rrie d 150K ? Yes Married 120K No Yes Di vorced 90K ? 5 No Divorced 95K Yes No Sin g l e 40K ? 6 No Married No No Ma rrie d 80K ? 60K 10 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No 10 Single 90K Yes Training Set Learn Classifier Test Set Model 16 کاربردهای طبقه بندی بازاریابی مستقیم شناخت تقلب Fraud Detection - شناسایی و طبقه بندی مشتری ارسال کاتالوگ 17 .2خوشه بندی ‏ ‏ ‏ ‏ يادگيري نظارت نشده دسته بندی طبیعی داده های نامتجانس به تعدادی خوشه براساس خصوصيات مشابه پيوستگي داخلي هر دسته و همبستگي خارجي کم با سایر دسته ها براساس نزدیکی فاصله ميان رکوردها و درصد قرار گرفتن داده هاي ورودي در خوشه ها تفاوت با طبقه بندی – نامعین بودن خوشه ها در شروع کار 18 خوشه بندی ... معایب – نامناسب برای داده های با خصوصيات نامربوط و دارای افزونگي – دقت کمتر از روشهاي ديگر کاربرد – تقسیم بندی بازار محصول – شناسايي مشتريان – بازاريابي مستقيم 19 .3کشف قانون وابستگی کشف و تولید الگوهایی که وقوع یک رخداد را براساس واقعه دیگر پیش گویی کند ‏Confidence درجه اطمینان قانون " پنير → نان " %80است. در %80تراکنشهاي خريد ،اگر نان وجود داشته باشد ،پنير نيز وجود دارد . ‏Support تنها در . /0001درصد از تراکنشهاي خريد ، شير و پيچ گوشتي با هم باشند ،بنابراين درجه پشتيباني براي قانون زیر پایین است: " پيچ گوشتي → شير " 20 ‏Items ‏TID ‏Bread, Coke, Milk 1 ‏Beer, Bread ‏Beer, Coke, Diaper, Milk ‏Beer, Bread, Diaper, Milk ‏Coke, Diaper, Milk 2 3 4 5 ‏Rules ‏RulesDiscovered: ‏Discovered: }{Milk >{Milk}-- }-->{Coke }{Coke {Diaper, }{Diaper,Milk >Milk}-- >-- }{Beer }{Beer کاربردهای کشف قانون وابستگی مدیریت موجودی و انبار تبلیغات و بازاریابی چند کاال مدیریت چیدمان قفسه های فروشگاه 21 .4تشخیص و کشف خطا کشف تغییرات در داده ها براساس رفتار نرمال گذشته مثال کاربرد – تشخيص حمله يا نفوذ در شبكه – کشف الگوهای خرید غیرنرمال توسط کارت های اعتباری 22 .5کشف الگوی ترتیبی شناسایی ترتیب وقایع براساس اطالعات گذشته مثال %40:مشتریان که کت خاکستری خریده اند ،شش ماه بعد شلوار مشکی خریده اند. نیازبه – داده های کامل ،دقیق و معتبر نتیجه – برنامه ریزی تولید بهتر – مدیریت بهینه انبار چرخه مديريت ارتباط با مشتري 25 مطالعه موردی :شرکت بیمه جامعه آماری مورد مطالعه – داده های سیستم های اطالعاتی یک شرکت بیمه شامل بیمه بدنه خودرو ،بیمه باربری و بیمه آتش سوزی اطالعات قراردادهای بيمه نامه ها شامل – 17000رکورد – 62فيلد متمايز 26 تحليل نتایج داده كاوي درک توزیع پارامترهای مختلف درجامعه آماری – اغلب بیمه گذاران را افراد (و نه سازمانها) تشکیل می دهند. – در بیمه آتش سوزی :نرخ رویگردانی مشتری < نرخ جذب مشتری – در بیمه بدنه خودرو :نرخ رویگردانی مشتری > نرخ جذب مشتری درک خروجی مدلهای داده کاوی – ارائه تخفیف به مشتری ،دلیل اطمینان بخشی برحفظ مشتری برای دوره بعد نيست. – نرخ جذب مشتریان با سابقه خسارت > مشتريان بدون سابقه خسارت (بر خالف تصور مدیران) 27 تحليل نتایج داده كاوي ... تلفیق الگوهای حاصل از مدلهای مختلف و شناخت روابط عمیق بين رفتارهای مختلف مشتریان – باالترین نرخ جذب مشتری :مشتریان با واسطه (مانند بانک یا شرکت خودروسازی) – بیشترین نرخ رويگرداني :همین مشتريان نتیجه – وجود واسطه میان مشتری و سازمان توان سازمان در ایجاد روابط بلند مدت با مشتری واقعی (مصرف کننده) تهدید می کند. 28 کالم آخر داد کاوی مناسب برای – هر حوزه ای که نیاز به شناسایی الگوی جدید و ارتباط بین داده ها دارد داده کاوی موفق – منابع داده معتبر ،با کیفیت و کامل – انتخاب روش صحیح داده کاوی 29

51,000 تومان