کامپیوتر و IT و اینترنتتجزیه و تحلیل اطلاعاتعلوم مهندسیعلوم پایه آمار

داده‌کاوی جريان‌داده‌ها با درخت‌های تصميم‌گيری

صفحه 1:
داده کاوی جریان‌داده‌ها با درخت‌های تصمیم گیری 1 Se D8oi5 51D Le Mo din! [۱ ‏م0101‎ 00je0- 11g , 0000000000000 0000000000000000000000000000000 ‏باشيي‎ 10

صفحه 2:
کلاسه بندی فرایندی دو مرحله ای است 8 ساخت مدل تحلیل یک مجموعه آموزشی که مجموعه‌ای [ا ز[ناپل‌هایلاپایگاه است و مشخص كردن برجسب كلاسهاى مربوط به اين تايلها . يك تايل ا با يك بردار صفت (,...,©,0)-/ نمايش داده مىشود . فرض مى شو كه هر تابل به يك كلاس از بيش تعريف شده متعلق است هركلاس با يك صفت كه به آن صفت برجسب كلاس مىكوييم مشخص مىشود مجبوعه آموزشی به ضورتااتضلنای از پایگاه اتخاب می ‎BSD‏ ‏به اين مرحله . مرحله يادكيرى نيز مى كويند استفاده از مدل از طريق يك تابع (7)006م/ برجسب كلاس هر تابل 2 از پایگاه را پیش بینی می شود اين تابع به صورت قواعد كلاسهبندى . درختهاى تصميم گیری یا فرمول‌های ریاضی است

صفحه 3:
درخت های تصمیم گیری يكل از روش های گارآمد و با عاربره گشترده غلاشه پسی اسگاء ندل عاصل ‎tals)‏ روش جیورت جزجتها ‎esl ant ean‏ هروه مرن درشت نان معسه یک آزمون پر ‎ie Sh coy‏ انت.: #ا هر شاخه خارج شونده از یک گره نشان دهنده خروجی های ممکن آزمون است . هر برگ نشان: دهنده یک پرچسب کلامن است. SF ee SS Sy Sk ‏ختوة‎ كر نايلن حون 6 که برچسب. علامن آن نامشکسن ‎coll‏ داشه پلشیم صقات آین ايل عو درخت مورد آزمون قرار می گيرند و یک مسیر از ريشه به سمت یک برگ که برچسب یک کلاس را دارد ایجاد می شود .

صفحه 4:
مجموعه داده های آموزشیین a... RD ‏مه ام‎ [Raw ves ‏مه‎ [Raw ves ves _|Rair ves ‏ا‎ 56 veo [excellent ves ‏الا‎ 0 ves [Rar ves ves ‏عند‎ ves K<=ad_[wediuw | ves exvellewt ves ‎[excellent ves‏ مت | ملعم | ط91...00] ‎— fad... ‏ام‎ veo [Raw ves ‎PRD [wediuw | ae excellent 3 ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 5:
buys_computer (lp (6 5 peeai C559

صفحه 6:
الگوریتم برای درخت های تصمیم گیری الگوریتم پایه ‎Ml‏ درخت به صورت بالا-پایین بازگشتی ساخته می شود . #ا در آغاز تمام مجموعه آموزشی در ريشه قرار دارند . فرض می کنیم صفات مقادیر گسسته دارند . صفات به صورت با زگشتی بر © صفات آزمون بر اساس یک روال هیوریستیک مانند بهره اطلاعاتی . شاخص جینی یا نسبت بهره انتخاب می شوند . شرایط توقف الگوریتم تمام نمونه های مربوط ‎ay‏ یک نود متعلق به یک کلاس باشند . صفتی برای بخش بندی بیشتر باقی نمانده باشد . 2# نمونه ای باقی نمانده باشد . بااظفارت اتتخاب ‎tae‏ ينض فى قلق .

صفحه 7:
چالش ها روش های ساختن درختان تصمیم گیری فرض می کنند که تمام مجموعه آموزشی به طور تون من جاند جر دینک کشیره شوج روش های مذکور بصورت پیاپی مجموعه آموزشی را از دیسک می خوانند . هدف : طراحی درخت های تصمیم گیری که هر نمونه آموزشی را فقط یکیاربخواندزمان کوتاه ثابتى .را براك بودازش آن توف کند:

صفحه 8:
‎ls‏ کلیدی ‏براى يافتن بهترين صفت در هر گره » در نظر گرفتن یک زیرمجموعه کوچک لز نمونه های آموزشی که از آن گره عبور می کنند کافی است 9 با در دست داشتی جریانی از نمونه ها اولین ننونه ها برای انتخاب ضفت ريشه استفاده می شوند با تعیین شدن ضفت: ریشه :تبون هاى بعدى به سمت يابين و برگهای مربوطه عبوز ددع نی شوت تا بزای انتخاب صفث در آنجا استفاده شوند ‏این عمل به صورت بازگشتی تکرار می شود . 8 چه تعداد نمونه در هر گره لازم است ؟ از یک نتیجه آماری به نام لعج م1" استفاده می کنیم ‎

صفحه 9:
WoebPdicgy Ooucrd يك متغيير تصادفى با نام که دارای مقادیر حقیقی و برد ) است را در نظر بگیرید فرض کنید که * مشاهده مستقل از این متغیر انجام می‌دهیم . ميانكين اين مشاهدات : 27 2) وج ۳و نشان‌میهد که میانگینولقعیمتفیر ۳ بعدازلين» مشاهده با لحتط زا-8 حلقل لیر -ع لسنکه درلن 18 1۳)1/۵( 22

صفحه 10:
© فرض کنید که ی صفت دارای بالاترین مقدار ارزیابی بعد از 0 نمونه باشد . : ‏آنگاه با یک 8 مناسب اگر بعد از مشاهده " نمونه‎ mf چه تعداد نمونه کافی است ؟ فرض كنيد (/0)25) روال ابتکاری برای انتخاب صفات آزمون باشد مانند بهره اطلاعاتی و تن خیلی: ۰ کنید که ,26 صفت دارای دومین بالاترین مقدار | ‎aay‏ | نو باشد . فرض رای دومن با ترین ۳ آنگاه : گره می تواند بر حسب ‎KX‏ شکافته شود و نمونه های بعدی به سمت برگهای جدید عبور داده می شوند

صفحه 11:
۱6 7 Pree ‏الگوریتم‎ وا تا ۱ ام خن مسج :۵ لا 9X: otribues مت مه :( )6 ۰ ره اد ۵و mG 000 له 6 )0% ‎B(X,) nd‏ سس ‎F (BC) - GEG) > €)‏ ht a X, revurse to vent code break ره با وه ام و ‎Por‏ 8

صفحه 12:
الگوریتم ‎Pree‏ بلط مور DataStream Protocol = http Data Stream Bytes > 60K Protocol = http Protocol tip Olas * ‏ستطحاعه‎ * chew * chew) ‏حافظة مورد نياز ؛‎

صفحه 13:
رختان تصمیم گیری بسیار سریع 0۳07) 8 _برابری‌ها : وقتی که دو یا بیشتر صفت در (1) بسیار شبیه هستند نمونه‌های زیادی برای تصمیم گیری بین آنها :با اطمینان بالا نیاز است . در این مورد » اينکه چه صفتی انتخاب می شود اختلاف اندکی را بوجود می‌آورد 00۳00۳ بصورت انتخایی تصمیم می‌گیرد که یک برابری وجود دارد و شکاف را روی یکی از بهترین صفت‌های جاری انجام می‌دهد ‎Bales‏ * بخش قابل توجهی از زمان به ازای هر نمونه برای محاسبه 68 صرف می شود محاسبه دوباره 2) برای هر تمونه جدید ناکارا است . چون احتمال تصمیم برای شکاف در آن نقطه مشخص غیر محتمل است: #ا بنابراين “2012004) به كاربر اجازه مىدهد تا يك حداقل تعداد براى نمونه هاى جديد يا ,,, را مشخص كتد كه بايد در هر برك انباشته شود قبل از اينكه 62 دوباره محاسبه شود

صفحه 14:
درختان تصمیم گیری.بسیار سریع ۲0۲ حافظه : بسیاری از برنامه های کاربردی (16960) محدودی برای یادگیری مدلهای پیچیده دارند ‎ml‏ حافظه مورد استفاده ‎gla OPO‏ حافظه مورد نیاز برای نگهداری شمارنده‌ها در برگهای در حال رشد است . ‏اگر به حداکثر حافظه برسیم 6*007() برگهایی را که احتمال شکاف در آنها کم است غیرفعال می ‏کند تا حاقظه برای برگهای جدید فراهم شود ‏هنگامی که احتمال شکاف یک برگ غیرفعال از برگهای موجود بيشتر شود آن برگ دوبارهمی‌تواند فعال شود ‎

صفحه 15:
مقايسداى بين “002004 و .00 Accuracy vs. # examples سب کلم ‎Z VEDT —-+—‏ ‎VEDT-boot —--—‏ 1000 10000 100000 164006 1¢#007 1¢+008 No. Examples 90 85 80 75 70 65 60 55 100 Accuracy %

صفحه 16:
منابع (1) ‎Orlow, *‏ بل له هر 0 نم .© ‎Ocherk,‏ .© ‏0000 م۵ , سامح ‎to Dots‏ ها اجه تاه ‎] Cork. oa Privciden of Oats beer (POOG'OS), ‎Oxxbrn, 01, shee ODO. (Qroftercer herrtd) ‎© Burwert Gin Deru, Rapey Dotunni.. Bpprontente ‏تا هچره وا روموت‎ 90۵ ‏ها مت وس تم ‎Bronk, J. hem al. Pr X. You aad P.G. Yu, “Drains‏ .© و ‎Duleke Pree Grominten”, 1. Karaupts, . looks, (C. Girahurmar, sud Y. Yeoh (rbs.), Det‏ 4< ‎Oars Oras, CODD.‏ مس ‎Bro P utes, Lawrie Gprwer, Pedy Oowiepe: Distr oechamey dots pire. KDD‏ هر 97-400 :2000 ‎Sn. Dison Precurct paterse uthint canbe qeurratint “Ia Prov. OF‏ ثلا لعي رذ .ل رمسا لد هر ‎OOO” GCO O1G000 page (42, COOO.‏ ‎

صفحه 17:
منابع (2) ‎Duta sireues! okyortes ord upphoations,‏ ها ‎the Pourtercits oon PCO-S1@O sywpesiuce vt‏ ان لو ‎Opvrete ukprikees, ۰‏ ‎8 Ovkawed Oedkat Cuber , Shoot Kriskoaswany , Prody Deskwsky . Obiquicus Dota Orean Diciay , 09 ‎8 Occkew Ou. Disiey Dota Srears : 0 Review . 9 ‎

صفحه 18:
پرسش و پاسخ باتشکر

داده‌کاوي جريان‌داده‌ها با درخت‌هاي تصميم‌گيري رهگذرآقايدکتر  ناب  جاستاد  لیعباس  عقديمي يوحناکنندهتهيه پاشاييکاوهی 1 کالسه بندی ■ ■ ■ 2 فرايندی دو مرحله ای است : ساخت مدل : ■ تحليل يک مجموعه آموزشی که مجموعه‌ایازتاپل‌هایپايگاه است و مشخص کردن برچسب کالس‌های مربوط به اين تاپل‌ها . ■ يک تاپل Xبا يک بردار صفت ) X=(x1,x2,…,xnنمايش داده می‌شود .فرض می شود که هر تاپل به يک کالس از پيش تعريف شده متعلق است . ■ هرکالس با يک صفت که به آن صفت برچسب کالس می‌گوييم مشخص می‌شود . ■ مجموعه آموزشی به صورت تصادفی از پايگاه انتخاب می شود . ■ به اين مرحله ،مرحله يادگيری نيز می گويند . استفاده از مدل : ■ از طريق يک تابع ) y=f(Xبرچسب کالس هر تاپل Xاز پايگاه را پيش بينی می شود . کالسهبندی ،درخت‌های تصميم گيری يا فرمول‌های رياضی است . ‌ ■ اين تابع به صورت قواعد درخت های تصميم گيری ■ يکی اLز روش های کارآمد و با کاربرد گسترده کالسه بندی است . ■ مدل حاصل از اين روش به صورت درختهای تصميم گيری است : ■ هر گره در اين درخت نشان دهنده يک آزمون بر روی يک صفت است . ■ هر شاخه خارج شونده از يک گره نشان دهنده خروجی های ممکن آزمون است . ■ هر برگ نشان دهنده يک برچسب کالس است . ■ نحوه استفاده از درخت تصميم گيری : ■ اگر تاپلی چون Xکه برچسب کالس آن نامشخص است داشته باشيم صفات اين تاپل در درخت مورد آزمون قرار می گيرند و يک مسير از ريشه به سمت يک برگ که برچسب يک کالس را دارد ايجاد می شود . 3 مجموعه داده های آموزشی ag e <=30 <=30 31…40 >40 >40 >40 31…40 <=30 <=30 >40 <=30 31…40 31…40 >40 in co me st u d e n t h ig h no h ig h no h ig h no me d iu m no low ye s low ye s low ye s me d iu m no low ye s me d iu m ye s me d iu m ye s me d iu m no h ig h ye s me d iu m no cre d it _ra t in g fa ir e xce l l e n t fa ir fa ir fa ir e xce l l e n t e xce l l e n t fa ir fa ir fa ir e xce l l e n t e xce l l e n t fa ir e xce l l e n t b u ys_co mp u t e r no no ye s ye s ye s no ye s no ye s ye s ye s ye s ye s no 4 buys_computer درخت تصميم گيری برای age? <=30 overcast 30..40 student? yes >40 credit rating? no yes excellent fair no yes no yes 5 الگوريتم برای دLرخت های تصميم گيری ■ الگوريتم پايه ■ ■ ■ ■ ■ درخت به صورت باال-پايين بازگشتی ساخته می شود . در آغاز تمام مجموعه آموزشی در ريشه قرار دارند . فرض می کنيم صفات مقادير گسسته دارند . صفات به صورت بازگشتی بر حسب صفات انتخاب شده بخش بندی می شوند . صفات آزمون بر اساس يک روال هيوريستيک مانند بهره اطالعاتی ،شاخص جينی يا نسبت بهره انتخاب می شوند . ■ شرايط توقف الگوريتم ■ تمام نمونه های مربوط به يک نود متعلق به يک کالس باشند . ■ صفتی برای بخش بندی بيشتر باقی نمانده باشد . ■ نمونه ای باقی نمانده باشد . 6 چالش ها ■ روش های ساختن درختان تصميم گيری فرض می کنند که تمام مجموعه آموزشی به طور همزمان می تواند در ديسک ذخيره شود . ■ روش های مذکور بصورت پياپی مجموعه آموزشی را از ديسک می خوانند . ■ هدف :طراحی درخت های تصميم گيری که هر نمونه آموزشی را فقط يکبار بخواند زمان کوتاه ثابتی را برای پردازش آن صرف کند . 7 نکات کليدی ■ برای يافتن بهترين صفت در هر گره ،در نظر گرفتن يک زيرمجموعه کوچک اLز نمونه های آموزشی که از آن گره عبور می کنند کافی است . ■ با در دست داشتن جريانی از نمونه ها ،اولين نمونه ها برای انتخاب صفت ريشه استفاده می شوند . ■ با تعيين شدن صفت ريشه ،نمونه های بعدی به سمت پايين و برگهای مربوطه عبور داده می شوند تا برای انتخاب صفت در آنجا استفاده شوند . ■ اين عمل به صورت بازگشتی تکرار می شود . ■ چه تعداد نمونه در هر گره الزم است ؟ ■ از يک نتيجه آماری به نام Hoeffding boundاستفاده می کنيم . 8 Hoeffding Bound ■ يک متغيير تصادفی با نام rکه دارای مقادير حقيقی و برد Rاست را در نظر بگيريد . ■ فرض کنيد که nمشاهده مستقل از اين متغير انجام می‌دهيم . ■ ميانگين اين مشاهدات : ‏r مLیLهد کLLه مLيانLگينواLقLعیمLتغير rبLLعد از اLيLن nمLشاهده LبLLا ■ Hoeffding BoundنLLشان ‌د اLسLتکLLه در آLن: اLحLتماLل δ-1حLداLقLلبLLراLبر –ε ‏r ) R2 ln(1/  ‏ 2n 9 چه تعداد نمونه کافی است ؟ ■ فرض کنيد ) G(Xiروال ابتکاری برای انتخاب صفات آزمون باشد مانند بهره اطالعاتی و شاخص جينی . ■ فرض کنيد که Xaصفت دارای باالترين مقدار ارزيابی بعد از nنمونه باشد . ■ فرض کنيد که Xbصفت دارای دومين باالترين مقدار ارزيابی بعد از nنمونه باشد . ■ آنگاه با يک δمناسب اگر بعد از مشاهده nنمونه : آنگاه : ‏G G( Xa )  G( Xb )   ■ گره می تواند بر حسب Xaشکافته شود و نمونه های بعدی به سمت برگهای جديد عبور داده می شوند . 10 Hoeffding Tree الگوريتم ■ Hoeffding Tree Input ■ S: sequence of examples ■ X: attributes ■ G( ): evaluation function ■  : desired accuracy ■ Hoeffding Tree Algorithm ■ for each example in S ■ retrieve G(Xa) and G(Xb) //2 highest G(Xi) ■ if ( G(Xa) - G(Xb) > ε ) ■ split on Xa ■ ■ recurse to next node break 11 Hoeffding Tree الگوريتم Packets > yes 10 no Data Stream Protocol = http Packets > yes 10 no Bytes > 60K ye s Protocol = ftp Data Stream Protocol = http O(leaves * attributes * values * classes) : حافظه مورد نياز 12 درختان تصميم گيری بسيار سريع VFDT ■ برابریها : ‌ ■ وقتی که دو يا بيشتر صفت در Gبسيار شبيه هستند نمونه‌های زيادی برای تصميم‌گيری بين آنها ،با اطمينان باال نياز است . ■ در اين مورد ،اينکه چه صفتی انتخاب می شود اختالف اندکی را بوجود می‌آورد VFDT. بصورت انتخابی تصميم می‌گيرد که يک برابری وجود دارد و شکاف را روی يکی از بهترين صفتهای جاری انجام می‌دهد . ‌ ■ محاسبه : G ■ بخش قابل توجهی از زمان به ازای هر نمونه برای محاسبه Gصرف می شود . ■ محاسبه دوباره Gبرای هر نمونه جديد ناکارا است ،چون احتمال تصميم برای شکاف در آن نقطه مشخص غير محتمل است . ■ بنابراين VFDTبه کاربر اجازه می‌دهد تا يک حداقل تعداد برای نمونه های جديد يا nmin را مشخص کند که بايد در هر برگ انباشته شود قبل از اينکه Gدوباره محاسبه شود . 13 درختان تصميم گيری بسيار سريع VFDT ■ حافظه : ■ ■ ■ ■ 14 بسياری از برنامه های کاربردی RAMمحدودی برای يادگيری مدلهای پيچيده دارند . حافظه مورد استفاده VFDTهمان حافظه مورد نياز برای نگهداری شمارنده‌ها در برگهای در حال رشد است . اگر به حداکثر حافظه برسيم VFDTبرگهايی را که احتمال شکاف در آنها کم است غيرفعال می کند تا حافظه برای برگهای جديد فراهم شود . هنگامی که احتمال شکاف يک برگ غيرفعال از برگهای موجود بيشتر شود آن برگ دوباره می‌تواند فعال شود . مقايسه‌ای بين VFDTوC4.5 15 )1( منابع ■ ■ B. Babcock, S. Babu, M. Datar, R. Motwani and J. Widom, “ Models and Issues in Data Stream Systems”, Proc. 2002 ACM-SIGACT/SIGART/SIGMOD Int. Conf. on Principles of Data base (PODS'02), Madison, WI, June 2002. (Conference tutorial) Gurmeet Singh Manku, Rajeev Motwani.. Approximate Frequency Counts over Data Streams, VLDB’02 ■ C. Giannella, J. Han, J. Pei, X. Yan and P.S. Yu, “Mining Frequent Patterns in Data Streams at Multiple Time Granularities”, H. Kargupta, A. Joshi, K. Sivakumar, and Y. Yesha (eds.), Next Generation Data Mining, 2003. ■ Geoff Hulten, Laurie Spencer, Pedro Domingos: Mining time-changing data streams. KDD 2001: 97-106 ■ J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. In Proc. Of 2000 ACM SIGMOD,pages 1-12,2000. 16 )2( منابع ■ S. Muthukrishnan, Data streams: algorithms and applications, Proceedings of the fourteenth annual ACM-SIAM symposium on Discrete algorithms, 2003. ■ Mohamed Medhat Gaber , Shonali Krishnaswamy , Arkady Zaslavsky . Ubiquitous Data Stream Mining , 2003 ■ Andrew Wu . Mining Data Streams : A Review . 2003 17 پايان پرسش و پاسخ باتشکر 18
39,000 تومان