صفحه 1:
مر ورتکنیکهای داده کاوی
صفحه 2:
تکنیکهای داده کاوی رایج
آنالیز سبد بازاری ۸۵۵1۷۵15 Market Basket
2 استنتاج مبتنى » Memory based reasoning alasl>
2 روشهای آماری, خوشه بندی و دسته بندی
لا درختهای تصمیم گیری ۳66 2660151013
الا روشهاى مبتنى Link Analysis «31S»
لا شبکه های عصبی
2 الگوریتمهای تیک
ee ممکن است الگوریتمهای زیادی موجود
صفحه 3:
یادگیری بانظارت
یک قرآیند دو مرحه ای است:
* ساختن یک مدل یادگیری با استفاده از تمونه های داده ای
i ome
صفحه 4:
9 ار
0
ره 88 28 ۵۵ ۵ 3۵3 2۵۵
0
و ل ارم و إرارة 3
1
۱
0
ye
صفحه 5:
یادگیری بانظارت؛ یک مثال برای
(aelsl)credit card promotion
A يى sly hypothesis پایگاه داده اسلاید قبل:
** تركيب يك يا
إل NS a renee
می کنند و آنها که استفاده نمی کنند.
کایک فاعده برای دس دی کردن افراد می نواند بصورت
زیر باشد: 0 ee
IF Sex = Female & 19 <=Age <= 43
THEN Life Insurance Promotion = Yes
صفحه 6:
۱ rece a
مشخص شده
لا از نظر تکنیکی یعنی : بروز کردن فیلد دسته بندی هر رکورد.
باك ك كلاسا
لا اين عمليات نيازمند موارد زير است:
well-defined aslo کلاسهایی با تعريف *
میستها و پرسل آموزش دید allay *
: لا مثالهاى دسته بندی
keywords sal olals *
credit(low,medium,high) sls! og 5 *
دانشجوی ارشد. ee ا
اد
صفحه 7:
تخمین طمناحصناو1۲
2 تخصیص مقدار برای یک متغیر پیوسته
0 ممکن است پایه ای برای دسته بندی باشد.
لا مرتب کردن و رتکینگ را ممکن می سازد.
27 از یک مقدار آستانه ۲۲69۳010 استفاده می کند. مانند:
۲ مثالهای تخمین :.
* تعداد فرزندان
insurance premium aay 3> *
* درآمد خانه دارى ‘household income
صفحه 8:
پیشگویی Prediction
دسته بندی/تخمین بر اساس مقادیر و رفتارهای آینده
صورت می گیرد.
الا ویژگی خروجی ممکن است مقدار عددی یا دسته ای
awl categorical
لا استفاده از گذشته برای یادگرفتن درباره آنده :
* از یک مدل و ی هدف و: مستقل و یا
* مدل بر روی ننایج گذشته مشاهده شده اعمال می شود.
لا مثالها:
* مدت زمان گرفتن یک درجه
marketing campaign wl jbl slels; a ws awk *
صفحه 9:
Cardiology Pati
صفحه 10:
5 پیشگویی «: آ(ادامه)
اا oe
صم سب تن نید =
Cw
Cox
ات مومس = تسش امبرل دا سل
es (ee aap, 2 سح Good
ap ae 4 1 اسه
Pintiog Good Gagar <A) alow Nese Gator Care
ae سا با Worst 8 مس
Daxiconsce rat ote 26 aD 0
عدا Te سا سا
fd ahs 0 9 eo 56
Gore 3 مس at Drum
Osher oP Colored Orso و o 0 8
Gx Rev Rey امه
صفحه 11:
isha, 0۲01۲0 ۳۲۵(ادامه)
لا مثال: مجموعه داده بیماران قلبی(ادامه) :
لا یک قاعده برای تشخیص کلاس سلامتی:
Eis ay Bee fale Sane EN Cone
Accuracy, سس vate in this range, in 85% of
cht nly تن
لك
of al patents of heathy” have er ate ی بو و
ل یک قاعده برای تشخیص کلاس بیمار:
Eh: om etn
Rule accuracy: 91.14%
Rule coverage: 52.17%
صفحه 12:
وابستگی یا انجمنی (0هه Affinity
(Association
م در اينجا اشيائى كه با هم دیگر واقع مى شوند مورد نظر مى >
Sess) oe بیع مرب ۳3۳۳۵۴۹8 +
2
< ترتیب قرار دادن کالاها در قفسه هاى فروشكاه مشخص مى شود.
* گروهبندی کردن محصولات برای با هم فروختن آنها صورت مى گیرد.
۳ گر وهبندی را (Association Rul s) مواع ان ol
صفحه 13:
وابستگی Affinity and) Gio! L
صمنادن»موعش) (ادامه)
ee Qa برای پایگاه داده 0تمه ۲68
IF ٩ = ova
Credit Card Insurance = No
PINE ee oh SEL
= Yes
صفحه 14:
آنالیز وابستگی سبد بازار (۵16۵۷
(Basket Analysis
لك ل ته ادح سح تطار ۱ ۱
** محاسبه احتمال رخ دادن با همديكر آيتمها
** استفاده از متغيرهاى دسته اى(8]6907181©) ورودى.
مجموعه داده های بزرگ متغیرهای زیادی نیاز دارند.
ls > با قواعد انجمنی برای آیتمهای خاصی بیان می شود.
ل از قواعد انجمنی استفاده می کند.
لا خیلی مرتبط با صنعت خرده فروشی می باشد.
* فقط داده های فروش موجود هستند.
* از داده های آمارگیری استفاده نمی شود.
* مثال: آنهایی که نقاشی می خرند از مداد نقاشی نیز خرید می کنند.
صفحه 15:
۳
0 eee a
کردن مقادیر برای نمونه های نامعلوم می باشد.
ones
* بيدا كردن همسایگان نمونه های نامعلوم
2 بر اساس یک wl فاصله
* ترکیب نتایج حاصل از همسایگان برای تخصیص مقدار پیشگویی شده
> بر اساس یک تایع ترکیب مشخص
لا مى تواند برای هر منبع داده اى بكار رود.
الا اعمال تغييرات sly دامنه ها و رنجها آسان می باشد.
صفحه 16:
(Clustering) sau aius>
ناهمگون به خوشه های زیر گروه با همگنی es a
9[
* بلکه از شیاهت. بین داده ها استفاده می شود.
٠ a عنوان یک گام پیشین برای مدلهای دیگر مورد استفاده
می
* مثال: خوشه بندی کردن برای کمک در market) j1jb glass
eth
صفحه 17:
۷
oe: OAD
وج اسه لسن اال
و یه
صفحه 18:
درختهای تصمیمگیری (Decision Trees)
O انواع اصلی درختهای تصمیم گیری
* درختهای دسته بندی
ee 0
در هر دو حالت رکوردها در طول blige eae وبا استفاده
ea اعد مسیر دهی می شوند و تا بر
لا رکوردها در یک مجموعه oe از 00 بندی شده به
زیر مجموعه های
مجزا تقسیم می شوند.
* اين كان ترسط تواغرى كه ٠ در یک فیلد رکورد
pete در هر زمان بر روى يك فيلد ركورد تعريف
* هر زیر مجموعه خود به زیر مجموعه های کوچکتری تقسیم می شود
* این فرآیند بصورت بازگشتی تا برگ درخت ضورت می گبرد.
صفحه 19:
Qrep throat
oe
on
=<
Ger
لام
لا
ارا ار ارك رك فى
8 23 ه ۶ 3 تر
مالسا سيت
Table 1.1 Hypothetical Training Data for Disease Diagnosis
sefefesass
eo
سس Cover
detfesateal
۵ هه هه وه
۵ مت
(ادامه)
(Decision Trees) درختهای تصمیمگیری
صفحه 20:
اسب
@owds
De
Alergy Oayavete = Oold
صفحه 21:
(Decision Trees) درختهای تصمیمگیری
(ادامه)
لت تال
قواع تولید: 2
- 1۳ Swollen Glands = Yes
* THEN Diagnosis = Strep Throat
- IF Swollen Glands = No & Fever = Yes
* THEN Diagnosis = Cold
-IF Swollen Glands = No & Fever = No
+ THEN Diagnosis = Allergy