صفحه 1:
داده کاوی جریاندادهها با درختهای تصمیم گیری
1 Se D8oi5 51D Le Mo din!
[۱
م0101 00je0- 11g , 0000000000000 0000000000000000000000000000000
باشيي 10
صفحه 2:
کلاسه بندی
فرایندی دو مرحله ای است
8 ساخت مدل
تحلیل یک مجموعه آموزشی که مجموعهای [ا ز[ناپلهایلاپایگاه است و مشخص
كردن برجسب كلاسهاى مربوط به اين تايلها .
يك تايل ا با يك بردار صفت (,...,©,0)-/ نمايش داده مىشود . فرض مى شو
كه هر تابل به يك كلاس از بيش تعريف شده متعلق است
هركلاس با يك صفت كه به آن صفت برجسب كلاس مىكوييم مشخص مىشود
مجبوعه آموزشی به ضورتااتضلنای از پایگاه اتخاب می BSD
به اين مرحله . مرحله يادكيرى نيز مى كويند
استفاده از مدل
از طريق يك تابع (7)006م/ برجسب كلاس هر تابل 2 از پایگاه را پیش بینی می شود
اين تابع به صورت قواعد كلاسهبندى . درختهاى تصميم گیری یا فرمولهای ریاضی است
صفحه 3:
درخت های تصمیم گیری
يكل از روش های گارآمد و با عاربره گشترده غلاشه پسی اسگاء
ندل عاصل tals) روش جیورت جزجتها esl ant ean
هروه مرن درشت نان معسه یک آزمون پر ie Sh coy انت.:
#ا هر شاخه خارج شونده از یک گره نشان دهنده خروجی های ممکن آزمون است .
هر برگ نشان: دهنده یک پرچسب کلامن است.
SF ee SS Sy Sk ختوة
كر نايلن حون 6 که برچسب. علامن آن نامشکسن coll داشه پلشیم صقات آین ايل عو
درخت مورد آزمون قرار می گيرند و یک مسیر از ريشه به سمت یک برگ که برچسب یک
کلاس را دارد ایجاد می شود .
صفحه 4:
مجموعه داده های آموزشیین
a... RD مه ام [Raw ves
مه [Raw ves
ves _|Rair ves
ا 56
veo [excellent ves
الا 0
ves [Rar ves
ves عند ves
K<=ad_[wediuw | ves exvellewt ves
[excellent ves مت | ملعم | ط91...00]
— fad... ام veo [Raw ves
PRD [wediuw | ae excellent 3
صفحه 5:
buys_computer (lp (6 5 peeai C559
صفحه 6:
الگوریتم برای درخت های تصمیم گیری
الگوریتم پایه
Ml درخت به صورت بالا-پایین بازگشتی ساخته می شود .
#ا در آغاز تمام مجموعه آموزشی در ريشه قرار دارند .
فرض می کنیم صفات مقادیر گسسته دارند .
صفات به صورت با زگشتی بر
© صفات آزمون بر اساس یک روال هیوریستیک مانند بهره اطلاعاتی . شاخص جینی
یا نسبت بهره انتخاب می شوند .
شرایط توقف الگوریتم
تمام نمونه های مربوط ay یک نود متعلق به یک کلاس باشند .
صفتی برای بخش بندی بیشتر باقی نمانده باشد .
2# نمونه ای باقی نمانده باشد .
بااظفارت اتتخاب tae ينض فى قلق .
صفحه 7:
چالش ها
روش های ساختن درختان تصمیم گیری فرض می کنند که تمام مجموعه آموزشی به طور
تون من جاند جر دینک کشیره شوج
روش های مذکور بصورت پیاپی مجموعه آموزشی را از دیسک می خوانند .
هدف : طراحی درخت های تصمیم گیری که هر نمونه آموزشی را فقط یکیاربخواندزمان کوتاه
ثابتى .را براك بودازش آن توف کند:
صفحه 8:
ls کلیدی
براى يافتن بهترين صفت در هر گره » در نظر گرفتن یک زیرمجموعه کوچک لز نمونه های
آموزشی که از آن گره عبور می کنند کافی است
9 با در دست داشتی جریانی از نمونه ها اولین ننونه ها برای انتخاب ضفت ريشه استفاده می شوند
با تعیین شدن ضفت: ریشه :تبون هاى بعدى به سمت يابين و برگهای مربوطه عبوز ددع نی شوت
تا بزای انتخاب صفث در آنجا استفاده شوند
این عمل به صورت بازگشتی تکرار می شود .
8 چه تعداد نمونه در هر گره لازم است ؟
از یک نتیجه آماری به نام لعج م1" استفاده می کنیم
صفحه 9:
WoebPdicgy Ooucrd
يك متغيير تصادفى با نام که دارای مقادیر حقیقی و برد ) است را در نظر بگیرید
فرض کنید که * مشاهده مستقل از این متغیر انجام میدهیم .
ميانكين اين مشاهدات : 27
2) وج ۳و نشانمیهد که میانگینولقعیمتفیر ۳ بعدازلين» مشاهده با
لحتط زا-8 حلقل لیر -ع لسنکه درلن
18 1۳)1/۵(
22
صفحه 10:
© فرض کنید که ی صفت دارای بالاترین مقدار ارزیابی بعد از 0 نمونه باشد .
: آنگاه با یک 8 مناسب اگر بعد از مشاهده " نمونه mf
چه تعداد نمونه کافی است ؟
فرض كنيد (/0)25) روال ابتکاری برای انتخاب صفات آزمون باشد مانند بهره اطلاعاتی و
تن خیلی:
۰ کنید که ,26 صفت دارای دومین بالاترین مقدار | aay | نو باشد .
فرض رای دومن با ترین ۳
آنگاه :
گره می تواند بر حسب KX شکافته شود و نمونه های بعدی به سمت برگهای جدید عبور
داده می شوند
صفحه 11:
۱6 7 Pree الگوریتم
وا تا ۱
ام خن مسج :۵ لا
9X: otribues
مت مه :( )6 ۰
ره اد ۵و
mG
000 له 6 )0% B(X,) nd سس
F (BC) - GEG) > €)
ht a X,
revurse to vent code
break
ره با وه
ام و Por 8
صفحه 12:
الگوریتم Pree بلط مور
DataStream
Protocol = http
Data Stream
Bytes >
60K Protocol = http
Protocol tip Olas * ستطحاعه * chew * chew) حافظة مورد نياز ؛
صفحه 13:
رختان تصمیم گیری بسیار سریع 0۳07)
8 _برابریها :
وقتی که دو یا بیشتر صفت در (1) بسیار شبیه هستند نمونههای زیادی برای تصمیم گیری بین
آنها :با اطمینان بالا نیاز است .
در این مورد » اينکه چه صفتی انتخاب می شود اختلاف اندکی را بوجود میآورد 00۳00۳
بصورت انتخایی تصمیم میگیرد که یک برابری وجود دارد و شکاف را روی یکی از بهترین
صفتهای جاری انجام میدهد
Bales
* بخش قابل توجهی از زمان به ازای هر نمونه برای محاسبه 68 صرف می شود
محاسبه دوباره 2) برای هر تمونه جدید ناکارا است . چون احتمال تصمیم برای شکاف در آن
نقطه مشخص غیر محتمل است:
#ا بنابراين “2012004) به كاربر اجازه مىدهد تا يك حداقل تعداد براى نمونه هاى جديد يا ,,,
را مشخص كتد كه بايد در هر برك انباشته شود قبل از اينكه 62 دوباره محاسبه شود
صفحه 14:
درختان تصمیم گیری.بسیار سریع ۲0۲
حافظه :
بسیاری از برنامه های کاربردی (16960) محدودی برای یادگیری مدلهای پیچیده دارند
ml حافظه مورد استفاده gla OPO حافظه مورد نیاز برای نگهداری شمارندهها در برگهای در
حال رشد است .
اگر به حداکثر حافظه برسیم 6*007() برگهایی را که احتمال شکاف در آنها کم است غیرفعال می
کند تا حاقظه برای برگهای جدید فراهم شود
هنگامی که احتمال شکاف یک برگ غیرفعال از برگهای موجود بيشتر شود آن برگ دوبارهمیتواند
فعال شود
صفحه 15:
مقايسداى بين “002004 و .00
Accuracy vs. # examples
سب کلم
Z VEDT —-+—
VEDT-boot —--—
1000 10000 100000 164006 1¢#007 1¢+008
No. Examples
90
85
80
75
70
65
60
55
100
Accuracy %
صفحه 16:
منابع (1)
Orlow, * بل له هر 0 نم .© Ocherk, .©
0000 م۵ , سامح to Dots ها اجه تاه
] Cork. oa Privciden of Oats beer (POOG'OS),
Oxxbrn, 01, shee ODO. (Qroftercer herrtd)
© Burwert Gin Deru, Rapey Dotunni.. Bpprontente تا هچره وا روموت
90۵
ها مت وس تم Bronk, J. hem al. Pr X. You aad P.G. Yu, “Drains .© و
Duleke Pree Grominten”, 1. Karaupts, . looks, (C. Girahurmar, sud Y. Yeoh (rbs.), Det 4<
Oars Oras, CODD. مس
Bro P utes, Lawrie Gprwer, Pedy Oowiepe: Distr oechamey dots pire. KDD هر
97-400 :2000
Sn. Dison Precurct paterse uthint canbe qeurratint “Ia Prov. OF ثلا لعي رذ .ل رمسا لد هر
OOO” GCO O1G000 page (42, COOO.
صفحه 17:
منابع (2)
Duta sireues! okyortes ord upphoations, ها
the Pourtercits oon PCO-S1@O sywpesiuce vt ان لو
Opvrete ukprikees, ۰
8 Ovkawed Oedkat Cuber , Shoot Kriskoaswany , Prody
Deskwsky . Obiquicus Dota Orean Diciay , 09
8 Occkew Ou. Disiey Dota Srears : 0 Review . 9
صفحه 18:
پرسش و پاسخ
باتشکر