تکنیک های داده کاوی
اسلاید 1: مرورتکنيکهای داده کاوی
اسلاید 2: تکنيکهای داده کاوی رايج آناليز سبد بازاری Market Basket Analysis استنتاج مبتنی بر حافظه Memory based reasoning روشهای آماری، خوشه بندی و دسته بندی درختهای تصميم گيری Decision tree روشهای مبتنی برگراف، Link Analysis شبکه های عصبی الگوريتمهای ژنتيک برای هر تکنيک ممکن است الگوريتمهای زيادی موجود باشد.
اسلاید 3: يادگيری بانظارت يک فرآيند دو مرحله ای است: ساختن يک مدل يادگيری با استفاده از نمونه های داده ای آموزشی موجود استفاده از مدل ساخته شده برای مشخص کردن خروجی برای داده های تست
اسلاید 4: يادگيری بانظارت، يک مثال برای credit card promotionTable 2.3 • The Credit Card Promotion DatabaseIncomeMagazineWatchLife InsuranceCredit CardRange ($)PromotionPromotionPromotionInsuranceSexAge40–50KYesNoNoNoMale4530–40KYesYesYesNoFemale4040–50KNoNoNoNoMale4230–40KYesYesYesYesMale4350–60KYesNoYesNoFemale3820–30KNoNoNoNoFemale5530–40KYesNoYesYesMale3520–30KNoYesNoNoMale2730–40KYesNoNoNoMale4330–40KYesYesYesNoFemale4140–50KNoYesYesNoFemale4320–30KNoYesYesNoMale2950–60KYesYesYesNoFemale3940–50KNoYesNoNoMale5520–30KNoNoYesYesFemale19
اسلاید 5: يادگيری بانظارت، يک مثال برای credit card promotion(ادامه) يک hypothesis برای پايگاه داده اسلايد قبل: ترکيب يک يا بيشتر از فيلدها برای دسته بندی کردن افرادی که از ارتقاء بيمه عمر استفاده می کنند و آنها که استفاده نمی کنند. يک قاعده برای دسته بندی کردن افراد می تواند بصورت زير باشد:IF Sex = Female & 19 <=Age <= 43 THEN Life Insurance Promotion = Yes
اسلاید 6: دسته بندی Classification تخصيص شئ های آموزشی به کلاسهای گسسته از قبل مشخص شده از نظر تکنيکی يعنی : بروز کردن فيلد دسته بندی هر رکورد با يک کد کلاس اين عمليات نيازمند موارد زير است: کلاسهايی با تعريف مناسب well-defined روالها، سيستمها و پرسنل آموزش ديده مثالهای دسته بندی : کلمات کليدی keywords گروه اعتباری credit(low,medium,high) دانشجوی سال اول کارشناسی ، سال دوم، دانشجوی ارشد، دکتری
اسلاید 7: تخمين Estimation تخصيص مقدار برای يک متغير پيوسته نيازمند کلاسهای با تعريف مناسب well-defined می باشد. ممکن است پايه ای برای دسته بندی باشد. مرتب کردن و رنکينگ را ممکن می سازد. از يک مقدار آستانه threshold استفاده می کند. مانند:مقدار اعتبار credit score مثالهای تخمين : تعداد فرزندان حق بيمه insurance premium درآمد خانه داری household income
اسلاید 8: پيشگويی Prediction دسته بندی/تخمين بر اساس مقادير و رفتارهای آينده صورت می گيرد. ويژگی خروجی ممکن است مقدار عددی يا دسته ای categorical باشد. استفاده از گذشته برای يادگرفتن درباره آينده : از يک مدل وابستگی بين متغيرهای هدف و متغيرهای مستقل و يا بين رفتار کنونی و گذشته استفاده می شود. مدل بر روی نتايج گذشته مشاهده شده اعمال می شود. مثالها: مدت زمان گرفتن يک درجه پاسخ گويی به رقابتهای بازاريابی marketing campaign تعداد مسافران درتعطيلات آخر هفته
اسلاید 9: پيشگويی Prediction(ادامه) مثال: مجموعه داده بيماران قلبی
اسلاید 10: پيشگويی Prediction(ادامه) مثال: مجموعه داده بيماران قلبی(ادامه):
اسلاید 11: پيشگويی Prediction(ادامه) مثال: مجموعه داده بيماران قلبی(ادامه) : يک قاعده برای تشخيص کلاس سلامتی: IF 169 <= Maximum Heart Rate <=202 THEN Concept Class = HealthyRule accuracy: 85.07%Accuracy: If patient has heart rate in this range, in 85% of cases the “healthy” is correctRule coverage: 34.55%Coverage: 34% of all patients of “healthy” have heart rate in this range يک قاعده برای تشخيص کلاس بيمار: IF Thal = Rev & Chest Pain Type = Asymptomatic THEN Concept Class = SickRule accuracy: 91.14%Rule coverage: 52.17%
اسلاید 12: وابستگی يا انجمنی (Affinity and Association) در اينجا اشيائی که با هم ديگر واقع می شوند مورد نظر می باشد. مثال: چه چيزهايی با همديگر در چرخ خريد(shopping cart) در فروشگاه قرار می گيرند اناليز سبد بازار(Market Basket Analysis) لازم است. ترتيب قرار دادن کالاها در قفسه های فروشگاه مشخص می شود. گروهبندی کردن محصولات برای با هم فروختن آنها صورت می گيرد. قواعد انجمنی (Association Rules) گروهبندی را مشخص می کنند.
اسلاید 13: وابستگی يا انجمنی (Affinity and Association)(ادامه) مثال، يک قاعده انجمنی برای پايگاه داده credit card promotion اسلايدهای قبلIF Sex = Female & Age = over40 & Credit Card Insurance = NoTHEN Life Insurance Promotion = Yes
اسلاید 14: آناليز وابستگی سبد بازار (Market Basket Analysis) پيدا کردن آيتمهايی که با هم رخ می دهند و يااينکه در دنباله تراکنشها قرار می گيرند محاسبه احتمال رخ دادن با همديگر آيتمها استفاده از متغيرهای دسته ای(categorical) ورودی مجموعه داده های بزرگ متغيرهای زيادی نياز دارند. نتايج با قواعد انجمنی برای آيتمهای خاصی بيان می شود. از قواعد انجمنی استفاده می کند. خيلی مرتبط با صنعت خرده فروشی می باشد. فقط داده های فروش موجود هستند. از داده های آمارگيری استفاده نمی شود. مثال: آنهايی که نقاشی می خرند از مداد نقاشی نيز خريد می کنند.
اسلاید 15: استنتاج مبتنی بر حافظه (Memory-based Reasoning) با معلوم بودن دامنه های نمونه(instances domain)و رنج نتايج هدف پيشگويی کردن مقادير برای نمونه های نامعلوم می باشد. پيدا کردن همسايگان نمونه های نامعلوم بر اساس يک تابع فاصله ترکيب نتايج حاصل از همسايگان برای تخصيص مقدار پيشگويی شده بر اساس يک تابع ترکيب مشخص می تواند برای هر منبع داده ای بکار رود. اعمال تغييرات برای دامنه ها و رنجها آسان می باشد.
اسلاید 16: خوشه بندی (Clustering) تقطيع يک گردايه ناهمگون به خوشه های زير گروه با همگنی بيشتر از قواعد دسته بندی از پيش تعيين شده استفاده نمی کند. بلکه از شباهت بين داده ها استفاده می شود. اغلب به عنوان يک گام پيشين برای مدلهای ديگر مورد استفاده قرار می گيرد. مثال: خوشه بندی کردن برای کمک در تقطيع بازار (market segmentation)
اسلاید 17: خوشه بندی (Clustering)(ادامه) مثال:
اسلاید 18: درختهای تصميمگيری (Decision Trees) انواع اصلی درختهای تصميم گيری درختهای دسته بندی درختهای رگرسيون، تخمين مقدار يک متغير هدف در هر دو حالت رکوردها در طول يالهای درخت حرکت کرده وبا استفاده از قواعد مسير دهی می شوند و تا برگ درخت حرکت می کنند. رکوردها در يک مجموعه آموزشی از قبل کلاس بندی شده به زير مجموعه های مجزا تقسيم می شوند. اين کار توسط قواعدی که در هر زمان بر روی يک فيلد رکورد تعريف شده اند انجام می شود. هر زير مجموعه خود به زير مجموعه های کوچکتری تقسيم می شود. اين فرآيند بصورت بازگشتی تا برگ درخت صورت می گيرد. برای دسته بندی مناسب است
اسلاید 19: درختهای تصميمگيری (Decision Trees)(ادامه) مثال:
اسلاید 20: درختهای تصميمگيری (Decision Trees)(ادامه) مثال:
اسلاید 21: درختهای تصميمگيری (Decision Trees)(ادامه) مثال: قواعد توليد:IF Swollen Glands = YesTHEN Diagnosis = Strep ThroatIF Swollen Glands = No & Fever = YesTHEN Diagnosis = ColdIF Swollen Glands = No & Fever = NoTHEN Diagnosis = Allergy
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.