صفحه 1:
خت های
در
صفحه 2:
درخت های تصمیم
درختهای تصمیم ابزار قدرتمند و درعین حال رایجی هم برای دسته بندی و هم برای پیشبینی
=
جذابیت روشهای درخت مبنا بیش از هرچیز به این واقعیت برمیگردد که درختهای تصمیم
نمیانگر قوانین میباشند.به راحتی میتوان قوانین را به زبان فارسی و یا هر زبان دیگری در آورد تا
برای همگان قلبل فهم باشند. همچنین میتوان آنها را به زبان قلبل دسترسى يايكاه داده ها مانند
6) درآورد و مثلا اطلاعات یک گروه خاص ر استخراج نمود.
درخت تصمیم برای بررسی داده ها برای کسب بینش بهتر درباره رولبط موجود بین تعداد زیادی از
clot ورودی كاتدينا شله برای یک متفر هدف در مقيد مرياضد أراتجلين كه درجت تسميم
بررسی داده و مدلسازی را باهم ترکیب میکند. گام اولیه قدرتمندی در فرآیند مدلسازی به شمار
می روند حتی هنگامی که برای تهیه مدل نهایی از برخی تکنیکهای دیگر استفاده شود.
صفحه 3:
معمولاً بین صحت مدل و شفافیت مدل توازن وجود دارد. دربرخی کارپردهاء. صحت دسته بندی یا
پیشبینی تنها مسئله مهم است.لگر مثلاً یک شرکت پست مستقیم مدلی را دراختیار داشته باشد که
با استفاده از آن بتوان به درستی پیشبینی کرد که کدامیک از مشتریان بالقوه احتمالاً به پیشنهاد
عرضه شده پاسخ خواهند داد آنگاه شلید برای لین شرکت اهمیتی نداشته باشد چرا و چگونه مدل
پیشبین ی کننده عمل میکند.
درسایر شرلیط. توانلیی بیان علت یک تصمیم حیلتی است. برای مثال. در غرامتهای بیمه. برخی
ممائعتهای قانینی دربرابر تبعیضها براساس متفیرهای خاصی وجود دارد. شاید یک شرکت بیمه در
وضعیتی قرار بگیرد که مجبور شود به دادگاه ثلبت کند هیچگهنه تبعیض غیرقانینی در دادن یا ندادن
ارت به افراد مرتکب نشده ۱ چنین بیشتر این پذیرفته شده است که وام دهنده و وام
گیرنده بدانند که پر اساس سیستم رایانهای با اعطای وام موافقت نشده است (مثلاً درمواردی که
محاسبات رایانهای نشان دهد درآمد ماهیلنه متقاضی کمتر از سطح لازم است یا آنکه ظرفیت وام
گیرندگان پرشده است) تا اینکه بفهمند تصمیمگیری درباره عدم اعطای وام توسط یک شبکه عصبی
هوشمند بدون هیچگونه توضیحی در مورد عملکردش صورت گرفته است.
صفحه 4:
درخ مد یم ۰
درخت تصمیمگیری ساختاری است که برای تفسیم مجموعهای بزرگ از داده های
جمعآوری شده به مجموعههای کوچکتر زنجیرهوار داده ها بواسطه یک سری قوانین
ساده تصمیمگیری به كار میرود.
در هر تقسیمبندی متوالی, اعضای مجموعه های حاصل بیش از پیش به همدیگر مشابه
می شوند. تقسیمبندی موجودات زنذه براساس قلمروهاه سلسله مراقب پیفلیش» دسته
كا نظام aly خانواده. جنسیت و گوله ها که در دهه ۱۷۲۰ توس گیاهگناس سوثهی
ee eS
در قلمروی حیوانات چنانچه موجود زندهای دارای ستون فقرات باشد جزو دسته مهره
داران قرار میگیرد. از دیگر ویژگیهای مهره داران برای تقسیمبندی آنها به پرندگان»
پستتعاران. خرن گان و عیره استفاده میشود لین دسته بندى اتقدر ادامة مى يليد تادر
پایینترین ردهبندی. اعضای یک گونه هم ازنظر شکل شناسی و هم توانلیی زاد و ولد و
eee
صفحه 5:
درخ مد یم ۰
یک مدل درخت تصمیمگیری از مجموعه ای از قوانین برای تقسیم جمعیت ناهمگن وسیعی به
گروههای کوچکتر و همگن تر با توجه به یک متفیر هدف خاص تشکیل شده است. شلید تهیه درخت
تصميم كيرى مشلبه مدل كارل لينوس كه به سورت دستى آماده شده طلقت قرما باشد و شليد اين
كار به طور خودكار با اعمال برخى الكوريتمهاى درخت تصميمكيرى دريك مجموعه مدل حاوى
دادههای از قبل دسته بندی شده انجام شود.
معمولاً متفیر هدف. دسته ای است و از مدل درخت تصمیمگیری استفاده می شود تا لحتمال
تخصیص داده های موجود به هر کدام از دسته ها محاسبه شود یا برای دسته بندی داده ها با
تخصیص آن به محتمل ترین دسته به کاررود. همچنین میتوان از درختهای تصمیمگیری برای
برآورد مقدلر متفیرهای پیوسته استفاده کرد هرچند که تکنیک های مناسبتری نیز برای انجام این
کار وجود دلرد.
صفحه 6:
دسته بندی
آنهای که با باری بست سوالی آشناه ند حوب میداند گنه یک درخت تصميم. دالهها رأ
is en ant درابی بازی یک پاریکن. كان ٠ شحس. با قینی خاس را که برای بكر
شرکتکنندگان آشنا است درنظر میگیرد ولی وی سرنخی به ديكران در اين رابطه نمیدهد. بقیه
بازیکنان سعی میکنند با طرح یک سری سوالات و گرفتن پاسخ بله یا خیر ن را حدس بزنند. یک
بازيكن خوب به ندرت نیز به پرسیدن همه بيست سوال مجاز در بازى دارد ا از اولين سؤال خود كه
"درجيب جا مىشود؟" به ياسخ اصلى "برج میلاد" برسد.
يك درخت تصميم نيز يك سرى و زنجيره از اين سوالات را مطرح مى كند. همجون بازى بيست
سوالی. پاسخ بهاولین سوال تعیین کننده سوال بعدی است. سوالات اولیه به ايجاد كروههاى بسيار
گسترده ایبا اعضای فراوان کمک می کند و سوالات بعدی لین گروههای گسترده را به مجموعههای
کوچکتر و کوچکتری محدود میکند.اگر سوالات به خوبی انتخاب شوند آنگاه با یک سری محدود از
سئوالات می توان به دسته بندی صحیح داده های ورودی پرداخت.
صفحه 7:
ee یت
بازی بیست سوالی نشان دهنده فرآیند استفاده از یک درخت برای گنجاندن امتیاز یا دسته ای در
داده ها است. یک سابقه اطلاعلتی در گره ريشه قرار میگیرد. دراینجا برای تعیین اینکه بعدا اطلاعات
درج شده به کدام ريشه نونهال پییند میخورد یک آزمایش صورت میگیرد. الگوریتمهای گوناگونی
برای انتخاب آزمایش اولیه وجود دارد اما هدف همه آنها یکی است و آن چیزی نیست جز انتخاب
آزمایشی که بتولند بین دسته های هدف بهترین تملیز را قلیل شود. لین فرآیند آنقدر تکرار میشود تا
يك سابقه اظلاعلتى به يك "ره برك برسد نمام اطلاعلتى كد به يك يرى فر درختت تبديل مىشوند
به طریقی مشابه دسته بندی میشوند و یک مسیرمنحصر به فرد از ريشه به برگ وجود خواهد داشت.
چنین مسیری نشانگر یک قانون به کاررفته در دسته بندی سوابق اطلاعاتی است.
شلید برگهای گوناگون دارای دسته بندی های مشابهی باشند هرچند که هر برگ به علت متفاوتی
دسته بندی را انسام می دهد به صنوان مثال درحتی که میوه جات و سبریحات را بران اس رنگ آن
میوه یا سبزی دسته بندی می کند. برگ درخت تصمیم سیب و گوجه فرنگی و گیلاس می تواند
رنگ قرمز را پیش بینی کند هر چند احتیاطهلیی را هم بلید در نظر داشت چراکه سيبهاى سبزه
گوجه فرنگیهای زرد و گیلاسهای سیاه رنگ هم وجود دارد.
صفحه 8:
درخت تصمیمگیری موجود در شکل ۶-۱ فهرست گیرندگان احتمللی یک کاتالوگ خرید کالا را به
صورت محتمل (۱) و غیر محتمل (۲) برای سفارش دادن پس از فرستادن کاتالوگ جدید
دسته بندی می کند.
این درخت براساس قواعد رایج در چرخه های داده کاوی تنظیم شده است بطوری که ریشهها در بالا
و برگها در پایین واقع شده اند. درسمت راست فوقانی هر گره یک شماره قراردارد و دسته پیش
شده هرکدلم درمرکز درج شده است. قوانین تصمیمگیری برای تقسیم هر گره روی خطوطی که
هر گره رل به نونهالان خود وصل میکند چاپ شده است. تقسیم در گره ریشهای که "سفارشات مادام
العمر" نام دارد صورت گرفته است و شاخه سمت چپ به مشتریلنی اختصاص يافته كه شش سفارش
یا کمتر داشته اند و شاخه سمت راست به مشتریانی با ۷ سفارش و بیشتر تعلق گرفته است.
هر داده ای که به گرهها ی برگی ۰۱۹ ۰۱۴ ۰۱۶ ۱۷ یا ۱۸ برسد با عنوان متحمل به پاسخگویی
دسته بندی می شود چرا که دسته پیشبینی شده دراین مورد یک است. مسیرهای منتهی به اين
گرههای برگی قوانین درخت را بیان می کنند. به عنوان مثال. قانون مربوط به برك 11 از اين قرار
است: "اگر مشتری بیش از ۵/۶ سفارش داشته باشد و کمترلز ۷۶۵ روز از آخرین سفارش وی بگذرد.
احتمالا به کاتالوگ پاسخ خواهد داد."
صفحه 9:
* شلید خوانندگان هوشیار متوجه شهند که برخی تفسیمهای درخت تصمیم در ظاهر
ری نمی ند متا کرههای ۷ و ۷ تراسا تاد سهارسای که سابل
سفارشاتی از دسته خورایها است متمایر شده اند. آما هر دو گره به عنوان پاسخ
عبین شده اند. علت این مسئله لن است که گذشته از بالاتر بودن احتمال
پاسخ در گره ۱۸ نسبت به گره ۱۷ احتمال پاسخ در هر دو مورد بیش از حدی است
که برای طبقهبندی یک سابقه اطلاعاتی به عنوان پاسخ دهنده تعیین شده است. این
مدل به عنوان یک دسته بندی کننده فقط دو خروجی صفر و یک دارد. لین دسته
coy دوگانه. اطلاعات سودمندی را نادیده می گیرد که مبحث جدید ما درباره
استفاده از درختهای تصمیم برای تهیه امتیازات و احتمالات است.
صفحه 10:
امتیازدهی
*_ شکل ۶۲ تصویری از همان درخت تصمیمگیری شکل ۶-۱ است که از یک آرلیه درختی دیگر با
وضعیت اصلاح شده استفاده شده است به طوریکه اینک درخت با اطلاعات بیشتر یعنی درصد
اطلاعات در دسته یک در هر گره حاشیه نویسی شده است.
حال به وضوح میتوان دید که این درخت یک پایگاه اطلاعاتی حاوی نیمیاز پاسخ دهنده ها و نیمیاز
غیر پاسخ دهنده ها را نشان میدهد چرا که گره ریشهلی دارای نسبت ۵۰ درصد است. لین وضعیت
دریک مجموعه آموزشی برای یک مدل پاسخگویی با متفیر هدف دوگانه رلیج است. در شکل ۶-۱ هر
گره با بیش از ۵۰ درصد پاسخ دهنده ها با عدد یک نشان داده شده است که شامل گرههای ۱۷ و ۱۸
نیز میشود. شکل ۶-۲ تفاوت بین لین گرهها را روشن میسازد. در گره ۱۷ جه میزان ۸/۵۳ درصد
سوایق اطلاعلتی نمایانگر واکتش است حال آنکه در گره ۱۸ این رقم به ۹/۶۶ درصد میرسد. معلوم
است که یک سابقه اطلاعلتی در گره ۱۸ بیشتر میتولند نمایانگر یک پاسخ دهنده باشد تا یک سابقه
داده در گره ۱۷
از نسبت اطلاعات در دسته دلخواه میتولن به عنوان یک امتیاز لستفاده کرد که اغلب از دسته بندی
صرف مفیدتر است. برلی یک نتبجه دوگلنه. دسته بندی فقط میتولند داده ها رابه دو گروه تقسیم
کند ولی یک امتیاز به داده ها امکان میدهد تا اطلاعات را از محتمل ترین تا کم احتمال ترین افراد
برای عضویت در دسته دلخواه مرتب کرد.
صفحه 11:
امتیازدهی
پسیاری از کاربردها به دست آوردن یک امتیاز که قادر به رتبه بندی یک فهرست باشد کافی خواهد
بود. این دستاورد نیز برای انتخاب بالاترین درصد 0) برای ارسال کانالوگ پستی و برای محاسبه
صعود در ابعاد گوناگون فهرست کفایت خواهد کرد.
آما در برخی کاربردهاء علم به اینکه احتمال پاسخگویی 69 از 60 بیشتر است کافی نخواهد بود. ما می
خواهیم درباره احتمال پاسخ گهیی توسط 9) بیشتر بدانیم. با فرض اینکه احتمللت قبلی یک پاسخ را
بدانیم آنگاه با آن میتوانيم احتمال واکنش ناشی از امتیاز به دست آمده از دادههلیی را که برای تهیه
درخت تصمیمگیری نمونه گیری شده لند محاسبه کنیم. یا اینکه میتوانیم مدل را برای دادههای از
پیش دسته بندی شدهای که دارای توزیع پاسخ ها و منعکسکننده آمار واقمی جمعیت است JS
ببریم:
لین روش با استفاده از نسبتهای دسته هاء در برگهای درخت امتیازاتی را ایجاد میکند که اين
احتمال را تشان می دهد که اطلاعات استخراج شده از یک جمعیت مشایه عضو دسته مزبور باشد.
صفحه 12:
Cae
فرض کنید که یک سوال مهم تجاری به جای آنکه عبارت: " چه کسی پاسخ خواهد داد؟" عبارت:
"مقدار سفارش بعدی مشتری چقدر خواهد بود؟ " باشد. با استفاده از درخت تصمیمگیری میتوان به
اين سؤال نيز پاسخ داد. فرض کنید مقدار سفارش یکی از متفیرهای موجود در مجموعه مدل از پیش
دسته بندی شده باشد آنگاه مقدار میانگین سفارش درهر برگ را میتوان به عنوان مقدار سفارش
تخمین زده شده برای هرگونه سابقه اطلاعلتی دسته بندی نشدهای به کار پرد که معیارهای آن برگ
را رعلیت کند. حتی لین امکان وجود دارد که از یک متغیر هدفمند عددی برای تهیه درخت استفاده
کرد. چنین درختی را درخت تخمین زننده مینامند. به جای اقزلیش خلوص یک متفیردسته ای» هر
تقسیم انجام شده در درخت برای کاهش واربانس ارقام متخیر هدف درهر گره نونهال انتخاب می۵
لین حقیقت که از درختان میتوان برای تخمین مقادیر پیوسته استفاده کرد ایده خوبی نیست. از یک
تخمین زننده درخت تصمیم میتوان به تعداد برگهای موجود در درخت برای ایجاد مقادیر ناپیوسته
استفاده نمود. بمنظور تخمین یک متغیر پیوسته, استفاده از یک تابع پیوسته ارجحیت دارد. مدلهای
رگرسیون و شبکههای عصبی عموماً ly انجام تخمین ها مناسب ترند.
صفحه 13:
درختان با اشکال متفاوتی وجود دارند
دیخت موجود در شکل ۶-۱ از نوع دوگلنه با ابماد غیر یکسان است وبه عبارتی هر گره غیربرگی دارای دو
تونهال است و برگهای ّن درفواصل مساوى از ريشه نيستند. درلين مويد هر كره نمايانكر يك سوال بله یا
خير اسث كه ياسخ به لن تعيين مىكند يك سابقه اطلاعاتى بايد كداميك از دو مسير را طى كند تا به
مرحله بعدی درخت پرسد.
از آنجایی که هرگونه تقسیم چند مسیری وا میتوان به عنوان یک سری تقسیمات دوگانه بیان نمود نیز
واقعی به درختلنی با عوامل شاخه ساز بیشتر نیست. با لین حال بسیاری از ابزارهای دادهکایی قادر به ایجاد
درختهایی با بیش از دو شاخهند. برای مثال» برخی الگوریتمهای درخت تصمیم با ایجاد یک شاخه برای
هر دسته. متفیرهای دسته ای را تقسیم میکنند که لين منجر به درختلنی با تعداد مختلف شاخه ها در گره
های گوناگون میشود. شکل ۶۳ نشاندهنده درختی است که از هردو نوع تقسیمبندی سه مسیری و در
مسیری برای همان مسئله دسته بندی که در درخت موجود در شکلهای ۶-۱ و ۶-۲ به کار رفته استفاده
م ىكند.
لازم به ذكر است كه رابطداى بين تعداد شاخههای مجاز برای هر گره و تعداد دسته ها در متغير هدف وجود
ندارد. يك درخت دوكلنه (يعنى درختى با تقسيم دوشاخه اى) را مىتوان براى دسته بندى اطلاعات به هر
تعداد دسته و يك درخت با تقسيم جندكانه را مىتوان براى طبقهبندى يك متغير هدف دوكانه به كار برد.
صفحه 14:
یک درخت تصمیم چگونه تهیه می شود
* با اينکه گونههای زیادی از الگوریتمهای درخت تصمیم وجود دارد ولی همه آنها از
روند مشابهی پیروی میکنند که آن عبارت است از تقسیم مکرر دادهها به گروههای
کوچک و کوچکتر به نحوی که با توجه به متغیر هدف هر نسل جدید گرهها
خللص تر از پیشینیان خود است. در بخش عمده لين مبحث ما يك متغير دسته ای
و دوگانه هدف مثل پاسخ دهنده / غیر پاسخ دهنده را مدنظر قرار میدهیم. اين
مسئله باعث تسهیل توضیحات بدون از بین رفتن محتوا می شود.
صفحه 15:
یافتن محل تقسیمات
درابتدای فرآیند با یک مجموعه آموزشی شامل داده های از قبل دسته بندی شده سروکار داریم که
همان مقدار متفیر هدف برای تمام موارد است. هدف این قرآیند تهیه درختی است که یک دسته را
(يا احتمال عضویت در هر دسته) به زمینه هدف اطلاعات جدید برلساس ارقام متغیرهای ورودی
اختصاص می دهد.
ورودی مجزا تهیه می شود. لذا دراولین
این درخت با تم داده ها در هرکره براساس عک رم
اقدام بلید تصمیم گرفت کدامیک از زمینه های ورودی می تولند بهترین تقسیم را انجام دهد. بهترین
تقسیم به بهترین جداکننده داده هابه صورت گروههلیی گفته مي شود که در لن یک دسته در هر
گروه نقش غالب را داشته باشد.
لذن اتنازة اقترى براى أرزناتق بك تقسيم بالقوه را خاوض موتامتك در هنة أبن روشهاي کات و
خلوصء. خلوص كم يعنى اينكه مجموعه. حاوى توزيعى از نماينده دسته هاست (بسته به كره والد)
درحللى كه خلوص زياد يعنى اينكه اعضاى يك دسته مجزا غللب هستند. بهترين تقسيم تقسيمى
است كه باعث افزليش ميزان خلوص دلده ها مىشود. در یک تقسیم خوب. گرههای هم اندازه ایجاد
مىشود يا حداقل كره هايى با تعداد داده هاى بسيار كم بوجود نمیآید.
در شكل 2-5 به آسانى مى توان اين مطللب را به صورت عينى مشاهده نمود و برخى از تقسيمات
خوب و بد در اينجا ارلئه شده است.
صفحه 16:
.شکل > 6 : یک تقسیم خوب باعث افزایش خلوص تمام نونهالان ميگردد
صفحه 17:
یافتن محل تقسیمات
* اولین تقسیم, نامطلوب است چرا که در خلوص هیچ افزایشی حاصل نشده است. جمعیت اولیه حاوی
تعداد مساوی از هردو نوع اشکال است که پس از تقسیمبندی نیز باز همین وضعیت در نونهال دیده
میشود. تقسیم دومی نیز نامطلوب است چرا که علیرغم افزایش جزثی خلوص, گره خالص اعضای
کمیدارد و خلوص نونهال بزرگتر نسبت به وللد خود افزایش بسیار کمییافته است. اما تقسیمبندی
آخر مطلوب است چرا که نونهالهلیی تقریبً یک اندلزه وبا خلوص بسیار بیشتری نسبت به والد خود
ایجاد شده اند.
*_الگوریتمهای درخت سازی طاقت فرسا هستند. در آنها هر متفیر ورودی به نوبت برداشته میشود و
فزایش خلوص آنها که از هر تقسیبندی ایجاد شده توسط آن متفیر اندزه گیری میشود. پس از
بررسی تمام متفیرهای ورودی. آن متفیری که بهترین تقسیم را فراهم میسازد برای تقسیم اولیه
نتخاب و دو پا چند نونهال ایجاد ميشود.اگرامکان هبچکینهتقسیمی نباشد (به دلل تعداد خیلی
کم داده ها) یا اگر با تقسیم ها هیچ بهبودی حاصل نشود آنگاه آن الگوریتم به پایان رسیده است و
همین گره تبدیل به گره برگی میشود. در غیر اینصورت الگوریتم تقسیم را انجام می دهد و روی هر
نونهال اين عمل را تكرار مى كند.
صفحه 18:
یافتن محل تقسیمات
یمات براساس تأثیر آنها بر خلوص گره از نظر متغیر هدف ارزیلبی میشوند. این
بدان معنی است که انتخاب معیار تقسیم مناسب بستگی به نوع متعیر هدف ونه به
نوع متغير ورودی دارد.
برای یک متفیر هدف دسته ای آزمایشهایی نظیر جینی ۰ بهره اطلاعاتی و مربع کای
مناسب است. صرق نظر از اینکه متغیر ورودی که تقسیم را رکه کرده عددی باشد با
دسته ای.به همین ترتیب با داشتن یک متغیر عددی پیوسته. آزمایشی نظیر کاهش
واریانس با تست برای ارویابی تقسیم متاسب است صرفنظر از اینکه متفیر ورودی
که نسم را له کرده دسته ای باشه با عددی.
شن
صفحه 19:
تقسیم متغیر ورودی عددی
وقتی به دنبال یک تفسیم دوگلنه در یک متفیر ورودی عددی هستیم هر مقداری که متفیر در مجموعه
ees none el کدی راك أن تقس Boe SS Ee
تقسیمات در یک متغیر عددی به شکل X<D خواهند بود. تمام داده ها که مقدار 6ا (متغیر
تقسیمبندی) در آنها کمتر از مقدار ثلبت (1) میباشد به یک نونهال فرستاده میشود و تمام داده ها كه
مقدار ا آنها بیش از (0) یا مساوی آن باشد به نونهال دیگری ارسال میشوا
يس از هر تتسيويندى ازمايشي هر ينه افزليش درخلوص که از تقسیم ناشی شنه است (در مورت
وجود) اندازهكيرى مى شود.
وقتى درخت تصميم امتيازدهى شد تنها استفادماى كه از ورودىهاى عددى مى شود مقايسه مقادير آنها
اذ تتسيم يندى اسك ادن أرقام هركز در وزنها شرب و ياعا هم جمع تموشيند در خالى كه
درسیاری از انواع ديكر مدلها لين اعمال انجام مى شود. از لين ويزكى نتيجه مهمى حاصل مىشود كه
كن عدم حساسيت درختهاى تصميم نسبت يه مشاهدات برت وا توزيع چوله متغیرهای عددی است
زیرا درخت فقط از رتبههای مقادیر عددى و نه از مقادير مطلق آنها استفاده مىكند.
صفحه 20:
تقسیم متغیر ورودی دسته ای
ساده ترین الگوریتم برای تقسیمبندی یک متفیر ورودی دسته ای تنها ایجاد یک شاخه جدید برای
هر دسته ای است که تلبع دسته ای میتواند برگزیند. لذا اگر از رنگ به عنوان بهترین برای تقسیم
گره ريشه استفاده شود و مجموعه آموزشی شامل داده هلیی باشد که مقادیر قرمز. نارنجی» زرد. سبز
آبی. نیلی و بنفش را به خود بگیرد آنگاه هفت گره در سطح بعدی درخت وجود خواهد داشت. از این
رویکرد در برخی بستههای نرم افزاری استفاده میشود اما اغلب نتلیج ضعیفی به همراه دارد.
شاخه بندی های زیاد. جمعیت داده های آموزشی موجود در هر گره در پایین ترین سطح درخت را
به سرعت کاهش میدهد و به این ترتیب تقسیمات بعدی کمتر قابل اعتماد می شوند.
* یک رویکرد رلیچ دیگر گروه بندی دسته ها یی است که به صورت انفرادی نتلیج مشابهی را پیشبینی
میکنند. درنگاهی دقیق تر اگر دو دسته متفیرهای ورودی به توزیع دسته های متفیر خروجی که
تفاوت بارزی با هم ندارندبپردزند دو دسته را میتوان باهم ادغام کرد. آزمایش متعارف برای تشخیص
ee تت مريع كاى أصمته
صفحه 21:
ne me 1
تقسيم با وجود مقادبر كمشده
یکی از جالبترين نكات درختهای تصميم توائيى آنها در مديريت مقادير كمشده در هر دو زمينه ورودى عندى يا
amis ار کل
مقادیر گمشده یا برای تخصیص مقادیر جایگزین مقادیر گمشده ترجیح داده مى شود. حذف داده ها با مقادیر
گمشده معمولا باعث بوجودآمدن یک مجموعه آموزشی تحریف شده میگردد چراکه احتمالاً داده های دارای مقادیر
گمشده. نمونه ای تصادفی از جمعیت نیستند. جایگزینی مقادیر گمشده با مقادیر جایگزین تخصیصی نیز لين خطر
را دربردارد که اطلاعات مهم متلثر از یک مقدار گمشده در مدل نادیده گرفته شود. موارد بسیاری دیده شده است"
Gall eee ree ee
لازم جه ذکر است که درختهای تصمیم میتوانند تقسیمبندیهایی را براساس مقادیر گمشده یک متفیر ورودی
انجام دهند. تهی بودن یک مقدار اغلب میتواند ارزش پیشبینی کننده ای داشته باشد لذا در حذف اطلاعات حاوی
مقادیر گمشده یا جایگزینی آنها با مقادیر تخصیصی عجله نکنید.
با اینکه بیشتر مواقع تخصیص مقدار تهی به عنوان یک دسته جداگلنه بسیار ارزشمند است اما حداقل یک رویکرد.
جایگزین توسط یک نرم فزار دادهکاوی ره شده است, هرگره تعدادی قانون تقسیمبندی ممکن را ذخیره میکند
که هر کدام براساس یک زمینه ورودی متفاوت مدون شده اند. وقتی به یک مقدار تهی در زمینه ای که بهترین
تفسیمها را فراهم میسازد برخورد شود نرم افزار از تفسیمبندی جانشین برمبنای بهترین متفیر ورودی موجود.
بعدی استفاده میکند.
صفحه 22:
رشد درخت کامل
تقسيم اوليه. دو يا جند كره نونهال راايجاد مىكند كه هركدام به روشى مشابه كره ريشه تقسيم مى شوند. دراينجا
نيز تمام زمينه هاى اطلاعات ورودى به عنوان تقسيم كننده هاى نامزد به حساب مى آيند حتى زمينه هليى كه
قبلاً برای تقسیمات استفاده شده اند. با این وجود. زمینه هلیی که فقط یک مقدار را به خود میگیرند در نظر
گرفته نمی شوند چرا که راهی که بتوان از طریق آنها برای ایجاد یک تقسیم استفاده کرد وجود ندارد.
یک زمینه دسته ای که به عنوان تقسیمگر در سطح بالای درخت به کار رفته احتمالاً به سرعت تک مقداری
خواهد شد. بهترین تقسیم برای هر کدام از زمینه های باقیمانده تعیین میشود. وقتی که دیگر نقسیمی که
خلوص یک گره داده شده را افزلیش دهد یافت نشود یا وقتی تعداد داده های یک گره به مقدار حداقل از پیش
تعیین شله برسد و یا اگر ابعاد درخت به حد از پیش تعبین شده ای برسد آنگاه جستجوی تقسیم برای آن شاخه
متوقف شده و كره به عنوان يك كره يرك برجسب میخورد
سرانجام وقتى امكان يافتن تقسيم بندىهاى بيشترى در هيج جاى درخت وجود نداشته باشد درخت تصميم
کامل ساخته شده است. همانطور كه خواهيم ديد اين درخت كامل معمولاً فرختى نيبت كه به بهترين شيوة يك
مجموعه جدید از داده ها را دسته بندی میکند
صفحه 23:
رشد درخت کامل
الگوریتمهای ساخت درخت تصمیم با تلاش در یافتن آن متفیر ورودی شروع می شوند که بهترین تقسیمبندی
دادهها را درمیان گروههای دلخواه انجام میدهد. در همه سطوح بعدی درخت. زیرمجموعههای ایجاد شده در
تقسیمبندی قبلی براساس هر قانونی که در مورد آنها بهتر عمل میکند تقسیم میشوند.
رشد درخت ادامه میبلبد تا جلیی که دیگر نتوان راههای بهتری برای تقسیم بیشتر داده های ورودی پیدا کرد.
اگر رابطه کاملاً تعیینکنندهای بین متفيرهاي ورودی و متغیر هدف وجود داشته باشد این تقسیم بندی بازگرا
درنهایت منجر به یک درخت با برگهای کاملاً خالص ميشود.
* تهیه نمونههليى از لين گينه آسان است اما ايجاد لين ساختار در کاربردهای بازاریلبی یا مدیریت ارتباط با مشتری
چندان اتفاق نمیافتد. داده های رفتار مشتری تقریباً هیچگاه حاوی چنین رولبط شفاف و تعیینکننده ای بين
ورودیها و خروجیها نیست. لین حقیقت که دو مشتری ازنظر متفیرهای ورودی موجود دارای مشخصات دقیقاً
یکسانی باشند متضمن بروز رفتار یکسان از جلنب آنها نیست. بطور مثال یک درخت تصمیم برای مدل باسخ به
یک کاتالوک ممکن است شامل برگی باشد که نمايانكر زنن بلای ۵۰ سال سن با سه بار يا بيشتر خريد در طول
یک سال گذشته و مجموع خرید بالای یکصد و پنجاه هزار تومان باشد. مشتریانی که به این برگ میرسند.
معمولاً آمیزهای از پاسخ دهنده ها و غیر پاسخ دهنده ها هستند. اگر برگ مزبور دارای برچسب " پاسخ دهنده"
باشد آنگاه درصد غیر پاسخ دهنده ها به عنوان "نرخ خطای" این برگ محسوب می شود. نسبت سهم پاسخ
دهنده ها در این برگ به سهم پاسخ دهنده های کل جامعه را صعود در این برگ می نامند.
صفحه 24:
رشد درخت کامل
وضعیتی که در آن احتمال کشف قوانین تعیین کننده وجود دارد زمانی است که الگوهای موجود در دادهها
متعکس کننده قوالین تجاری باشند. لین حقیقت در قللب یک مثال از یک شرکت تولیدکننده موتورهای دیزل
توضیح داده می شود. در لین شرکت یک مدل درخت تصمیم برای پیشبینی اینکه کدام تقاضای استفاده از
خدمات كارانتى تأييد مى شود تهیه گردید. بر اساس روال موجود در آن شرکت. به برخی تقاضاها به صورت
خودکار و بدون بررسی بیشتر وجهی پرداخت می شد.
نتایج چشمگیری حاصل شد بگونه ايکه مدل تهيه شده برای دادههای قبلاًآزمایش نشده صد درصد دقیق بود. به
عبارت دیگر, مدل, قوانین دقیقی را کشف کرد که شرکت برای دسته بندی تقاضاها بکار میبرد. در این مورد.
تکنیک شبکه عصبی با چنین موفقیتی عمل نمی کرد. البته کشف قوانین آشنا در تجارت شاید چندان مفید
نباشد اما زیربنایی برای ساخت درختهای تصمیم در حل مشکلات قانون مدار خواهد بود.
بسیاری از حوزهه از فرآیندهای ژنتیکی گرفته تا صنعتی دروقع داراى قوانين زيربنليى هستند هرجند كه اين
قوانین به لحاظ دادههای درهم ريخته شلید بسیار پیچیده و مبهم باشند. انتخاب درختهای تصمیم هنگامیکه
قوائین زیربنایی وجود دارد گزینهای طبیعی خواهد بود.
صفحه 25:
اندازه گیری کار آبی درخت تصمیم گیری
در نگرشی کلی, کارآیی یک درخت تصمیمگیری هم از روی اعمال آن بر یک مجموعه آزمایشی ( که از داده های
آن در ساخت درخت استفاده نشده است) و مشاهده درصد دسته بندی صحیح تعیین ميشود.
لین دستاورده نرخ خطای دسته بندی درخت رابه صورت کلی فراهم میکند ولی باید به کیفیت هر یک از
شاخههای درخت نیز توجه نمود. هر مسیر در درخت نمایانگر یک قانون است و برخی قوانین بهتر از سایرین
ath
در هر گرهاعم از گرهبرگی یا شاخه ای میتون موارد زیر را اندزه گیری نمود
- تعداد داده های ورودی به گره
نسیت داده ها در هر دسته
چگونگی طبقهبندی داده ها اگر گره از نوع برگی باشد.
درصد دسته بندی صحیح داده ها در آن گره
واریانس توزیع بین مجموعه آموزشی و آزمایشی
مسئله مهم دراینجا درصد دسته بندی صحیح دا
های هر گره می باشد. باکمال تعجب گاهی یک گره در سطح
بالای درخت. دسته بندی بهتری را درمجموعه آزمایشی انجام میدهد تا گرههایی در سطح پایین تر
صفحه 26:
ازمایش های انتخاب بهترین تقسیم
* اندازهگیریهای متفاوتی برای ارزیلبی تقسیمات بالقوه وجود دارد.الگوریتمهای تهیه شده در حوزه
یادگیری ماشینی بر افزایش خلوص نتایج ناشی از یک تقسیم تأکید دارند حال آنکه تمرکز
الگوریتمهای تهیه شده در جوامع آماری به تفاوت آماری بین توزیعات گرههای نونهال می باشد.
* اغلب بکارگیری شاخصهای تقسیمبندی متفاوت. منجر به تولید درختهایی می شوند که اگرچه
دارای ظاهری کاملاً متفاوتند ولی در عملکرد مشلبه هم هستند. دلیلش این است که معمول نواع
مختلف تقسیم ها با عملکردهایی بسیار مشابه وجود دارند.
* اندازه های خلوص متفاوت منجر به لنتخاب نامزدهای گوناگون میشود اما از آنجایی که تمام این
اندازه گیری ها برای بدستآوردن ایده یکسانی تلاش میکنند مدلهای حاصل شده رفتاری مشابه
دارند.
صفحه 27:
خلوص و پراکندگی
هر دو عبارت کاهش در پراکندگی حاصل از تقسیم و افزایش خلوص حاصل از تقسیم به ایدهای یکسانی اشاره
دارتد. انداره حلوص که دامته لن از صفر (زمانی که هیچ دو موردی در نموله در دسته یکسانی تباشند) تا یک
(زملنی که تمام مورد در نمونه در یک دسته قرار گییند) است را میتوان باکسر کردن آن از عدد یک تبدیل به
مقهوم عکس آن يعنى اندازه براكندكى كرد. برخى از اندازه كيريها كه براى ارزيلبى تقسيمبندىهاى درخت تصمیم
كيرى استقاده مىا شهند كمترين امتباز را به يك كره عللس و برخی ديكر بالاترين GCE Ci jel
تمامیاین موارد به عنوان اندازه های خلوص در نظر گرفته شده و هدف. بهینهسازی خلوص با به حداقل یا حداکثر
رساندن اندازه انتخاب شده است.
شکل ۶-۵ یک تقسیم خوب را نشان میدهد. گره ولد حاوی تعداد مساوی نقاط تیره و روشن است. نونهال سمت
چپ حاوی نه نقطه روشن و یک نقطه تیره و نونهال سمت راست برعکس دارای نه نقطه تیره و یک نقطه روشن
است. واضح است که خلوص افزایش یافته است. اما چگینه میتوان این افزایش را اندازه گیری نمود؟ و چطور
مىتوان اين تقسیم را با سایر تقسیمات مقایسه کرد؟ برای این کار نیاز به یک تعریف رسمی از خلوص است.
صفحه 28:
شكل ه-1: یک تقسیم خوب در متفیر دسته ای دوگانه باعث افزایش خلوص میگردد.
صفحه 29:
اندازه گیری خلوص برای ارزیابی تقسیمات
اندازه كيرى خلوص براى ارزيابى تقسيمات در متغيرهاى توابع هدف شامل موارد زير مى باشد:
- جينى (به نام پراکندگی جمعیت
لیز خوانده میشود)
آنتروپی (به نام بهره اطلاعاتی نیز خوانده میشود)
= نسبت بهره اطلاعاتی
- آزمون مجذور مربع کای
- وقتی متفیر هدف از نوع عددی باشد یک رویکرد ممکن» حذف آن و استفاده از یکی از اقدامات فوق
با این وجود دو اقدام رایج برای اهداف عددی وجود دارد:
= کاهش واریانس
- آزمون ۴
توچه اداشته باشید که let رعش متاس, اننازه گیری حلوص بت به دسته ای و با عددی بو عتفیر
هدف دارد. از آنجا كه نوع متفیر ورودى اهميتى ندارد. تمامى يك درخت براساس روش یکسان اندازه گیری
خلوص تهیه میشود. تقسیم نشان داده شده در نمودار ۶-۵ را مىتوان جا يك متغير ورودی عددی و یا با یک
متفیر دسته ای تهیه نمود که خلوص نونهالان. صرفنظ از نوع تقسیم. یکسان میباشد.
صفحه 30:
جینی b پراکندگی جمعیت
یک شاخص رایج تقسیمبندی جینی نام درد که از نام کورادو جینی, متخصص آمار و اقتصاددان ایتالایی گرفته
شده است. لین اندازه گیری که توسط زیست شناسان و بوم شناسان نیز برای مطالعه پراکندگی جمعیت استفاده
میشود احتمال قرارگیری ده مورد انتخاب شده تصادفی از یک جمعیت یکسان را در یک دسته نشان می دهد.
این احتمال برابر یک میباشد.
برای یک جمعیت خالس
اندازه گیری جیتی یک گرم به صورت ساده مجموع مریع نسبتهای دسته ها میباشد. برای تقسیم نشانداده شده
در شکل ۶-۵ جمعیت وللد دارای تعداد مساوی از نقاط روشن و تیره است. یک گره با تعداد مساوی از هریک از
دو دسته, دارای امتیاز /۰< ۲۰/۵ ۰/۵ است که قابل انتظار است چرا که شانس انتخاب یک دسته دو
دفعه به صورت تصادفی با امکان جایگزینی, یک از دو خواهد بود. امتیاز جینی برای هر کره به وجود آمده خواهد
بود. یک گره کاملاً خللص دارای امتیازجینی یک خواهد بود. گرهای که متوازن است دارای امتیاز جینی ۰۵
خواهد بود.
براى محاسبه تأثير يك تقسیم. امتیاز جینی هر گره نونهال را محاسبه کرده و در نسبت اطلاعات که به آن گره
میرسند ضرب کرده و سپس اعداد حاصل را باهم جمع می کنیم. در این مورده ازآنجایی که داده ها بطور مساوی
درون دو گره حاصل از این تقسیم قرارمیگیرند و هر گره دارایامتیاز جینی مساوی است لذاامتیاز تقسیم
انجام شده مساوی امتیاز هر یک از دو گره است.
صفحه 31:
کاهش آنتروپی پا بهره اطلاعاتی
بهره اطلاعاتی از یک ایده زیر کلنه برای تعریف خلوص استفاده میکند. اگر یک برگ کاملاً خللص باشد آنگاه
دسته های لین برگ را میتوان به راحتی اینگینه توصیف کرد که همگی آنها در یک دسته جای می گيرند. از
طرف ديكر. اگر یک برگ دارای نا خالصی بالایی باشد آنگاه توصیف آن بسیار مشکل خواهد بود.
تثوری اطلاعات که بخشی از علوم راینهای است برای این وضعیت اندازه ای به نام آنتروپی ایجاد کرده است. در
تعوری اطلاعات. آنتروپی انازه میزان بی نظلمی یک سیستم است. می توان گفت که که تعداد بیتهای راینهای
مورد نیاز برای توصیف یک موقعیت یا نتیجه خاص بستگی به اندازه مجموعه نتایج ممکن دارد. می نوان آنتروپی
رابه عنون اندازه تعداد سوالات بلیاخیر مورد نیز برای تعبین وضعیت سیستم در نظر گرفت. اگر ۱۶ وضعیت
احتمالی وجود داشته باشد. نیاز به ضریب (16)بی یا چهار بیت بای شمارش آنها یا شناسایی یکی از آنها
خواهد بود.اطلاعات اضافی باعث کاهش تعداد سوالات مورد نیاز برای تعیین وضعیت سیستم خواهد شد لذا
بهره اطلاعاتی به معنای همان کاهش آنتروپی میباشد. از هر دو لفظ برای توصیف الگوریتمهای درخت تصمیم
استفاده می شود.
صفحه 32:
کاهش آنتروپی یا بهره اطلاعاتی
وپی يك گره خاص يك درخت تصمیم عبارت است از جمع نسبتهای داده های متعلق به يك دسته خاص
براي تمام دسته هایی که در گره نشان داده شده اند که در لگاریتم پایه دو آن نسبت ضرب شده است (در
واقع اين مجموع را معمولاً در 6- ضرب می کنند تا عددي مثبت به دست آید). آنتروپی يك تقسیم بصورت
ryt ee) تعام كرعهاي ناشي از اقسيم كه بوسيله نسيت داده هلى هر كره وزن دمی شذة
است به دست می آید. هنگاميکه از کاهش آنتروپی به عنوان يك شاخص تقسيميندي استفاده شودء الكوريتم
به دنبال تقسیمی می گردد که آنتروپی را تا بیشترین میزان کاهش دهد (یا اطلاعات را افزایش دهد).
براي يك متغیر هدف دوگانه نظیر آنچه در شکل 0-0 آمده» فرمول بکار رفته براي آنتروپی يك گره
عبارت است از :
(احتمال نقاط روشن ,پا * احتمال نقاط روشن) + (احتمال نقاط تیره ,با * احتمال نقاط تیره) ۷ -
مثال» احتمال نقاط تيره و احتمال نقاط روشن هردو 0.() هستند و با قرار دادن 40.60 در فرمول
وپی» رابطه زیر به دست می آید:
(0۵.5) 0 بط (.0) + 0.5 بسا *-
صفحه 33:
کاهش آنتروپی یا بهره اطلاعاتی
۰ _ اولین عبارت براي نقاط روشن و عبارت دوم براي نقاط تیره است اما ازآنجايي که تعداد نقاط روشن و
تیره مساوي هستند عبارت به صورت (0.()) 4 * ,پا ساده می شود که جواب 6+ به دست می آید.
* حال سوال اينجا است که آنتروپی گرههايناشي از تقسيم چقدر است؟ يكي از نا داراي یک نقطه تيره و
نه نقطه روشن است درحالي که ديگري داراي نه نقطه تیره و يك نقطه روشن ميباشد. به وضوح می
توان ديد كه هر دو داراي سطع أنترويى يكسانى فستلد» يعنى:
-0 زدي 0.6 + )©.04( يدا O.4 (0.9)} = 0.95 + 0.06 - 0.6
Same ۰ کل آنتروپی سیستم پس از تقسیم؛ أنتروبى هر كره را در نسبت داده هايى كه به آن كره
اند ضرب کرده و همه آنها را با هم جمع کرده و متوسط أن را محاسبه نمایید. در اين مثال» هر
Sys ares داده ها را به دست ميآورد به طوري که آنتروپی کل همانند آنتروپی هر گره
.0 است. مجموع کاهش آنتروپی یا بهره اطلاعاتي حاصل از تقسیم نیز 00.() خواهد شد. اين
شاخصی است که براي مقایسه این تقسیم با سایر نامزدها بکار ميرود.
صفحه 34:
اندازه گیری آنتروبی تقسیم زمانی به مشکل بر می خورد که با یک روش تقسیمیندی همراه شود که با
متفیرهای ورودی دسته ای با ایجاد شاخه جدیدی برای هر مقدار سروکار داشته باشد. همین مورد درباره برنامه
06 پیش آمد که یک ابزار درخت تصمیم است که توسط محقق استرالیایی جی راس کوئیتلن در دهه 1۹۸۰
تهیه شد وبه صورت بخشی از بسیاری از بسته های نرم فزاری تجاری دادهکاوی درآمد. مشکل در اینجا کاهش
تعداد دسته های نملیش داده شده در هر گره و متعاقب ٌن کاهش آنتروپی است که صرفاً از شکستن مجموعه
دادههاى بزركتر به زيرمجموعههاى كوجكتر ناشى مىشود.
وبى كه مربوط به تعداد شاخهها باشد را اطلاعات نهادی یک تقسیمبندی مینامند. ( به یاد داشته
باشید که آنتروپی به عنوان مجموع تمام شاخههای احتمالات هر شاخه ضرب در لوگاریتم پایه ۲ آن احتمال
تعریف میشود) برای یک نقسیم تصادفی» مسبری, احتمال هر شاحه ۱ میباشد للا آنتروپی ناشی از
تقسیمی که یک تقسیم ۷ مسیری باشد. عبارت ساده (/۲,)61 /۷*1 یا (61/9)ا خواهد بود.
صفحه 35:
نسبت بهر ه اطلاعا oS
* به خاطر اطلاعات نهادی تقسیمات جندمسمریی درختهای تصمیم ساخته شده با استفاده از شاخص
تتسیمبتدی کاهش انترويى بدون هركونه اصلاح درزمينه اطلاعات نهادى مربوط به تقسيم» يريرك و بار مى شوند.
درختهاى بربرك ما تقسيمات متعدد جتدمسيرى مطلوب نیستند جراكه لين تقسيمات به تعناد كم خاده ها در
هر jetta eS شده.و مدلهاى حاصله از اين طريق تابايدار شواهتد بود
ly برخورد با لین مشکل. 6) و سایر مشتقات 106 که زملنی از بهره اطلاعلتی استفاده میکردند اینک به
خاطر تقسیم پیشنهادی اطلاعات نهادی که منحصراً مرتبط با تعداد شاخههای ساخته شده به عنوان شاخص
ارزیلبی تقسیمات پیشنهاد شده میباشد از نسبت کل بهره اطلاعلتی استفاده م ىكتند. لين آزمليش از كرليش به
درختهای بسیار پربرگ که در بستههای نرم افزاری قبلی درخت تصمیم مشکل به حساب میآمد پیشگیری
خواهد کرد.
صفحه 36:
آزمون مربع کای
آزمون مربع کای (*06. آزمون معنی داری آماری است که توسط آمارشناس انگلیسی کارل پیرسون
در سال ۱۹۰۰ بوجود آمد. coil آزمون به عنوان مجموع مربع های تفاوتهای استانتارد شده بين
فراوانهای مورد انتظار و مشاهته شفه برحی وقایم در نموند های نا یوسته جندگنه تریف شده استه
به بیان دیگر. لین آزمون اندازه ای برای لین احتمال است که تفاوت مشاهده شده بین نمونهها صرفا
انفاقی است. هنگامی که برای اندازه گبری خلوص تعسیم های درخت تصمیم از این آزمون استفاده
شود. مقادیر بالای مربع کای به معنای لن است که تغییرات معنی دار بوده و به صورت اتفافی و بر
ee ee toe
صفحه 37:
صفحه 38:
صفحه 39:
صفحه 40:
صفحه 41: