صفحه 1:
۹9
/
ee ان
\
۸
RC 1
02
يت
سحن
مصطفی اعظمی
1 5
ل سس
صفحه 2:
مقدمه
Poy A Oe nO eed ee © اصل "نهارآمجانی وجود ندارد"
۳ 0 برایمامی مسائل و درتمامی زمانهبهترین (
Sb ۳(
[ ايده:
* اگر تعدادی یادگیر پایه داشته باشیم میتوان با تر کیب نتایج آنها به دقت بالاتری رسید.
oon See 7 با هم متفاوث باشند:
00 ا ere pyc
ا ا اا ا الما 010
KOO
* نحوه نمایش: استفاده از تعداد متفاوت ویژگی برای هر یادگیر. استفاده از مجموعه داده
peyton
* مجموعه آموزشى: داده هاى آموزشى يادكيرها اندكى با هم تفاوت داشته باشند.
صفحه 3:
10 perk ا
۱ Ror Bate tcl Til
34h agzg/la aus
۱ en ke Las
" Serres ry]
ae Crom ABE ا
ee pen pert eer Cr
ف ریم: نحوه نمایش, پارامترهای
501010000 TS RICA
RO eed retort seer ie
در عملکرد سیستم وجود داشته باشد. در
| pees
7 Oey eer oy
EEC Saeed et ory
افزايش نمونه كيرى از اين توزيع به نتيجه
بهترى برسيم
صفحه 4:
Simple Majority Voting
‘Wiest examples:
صفحه 5:
, خصوصیت دستهآبندی کنندهتقای پایه
/ \
4مناستبی از ترکیب دیشته بندی کننده ها گ
الها بايد شترايط زير را ذاشته باشند:
* هر یک به تنهائی در حد قابل قبولی دقیق 00000
00
؟ هر کدام مکمل دیگری عمل کنند. به اين معنا که همگی نباید مشابه هم
بوده و نتیجه یکسانی تولید کنند.
صفحه 6:
۱
Cn ea aa
19 TCT ete Se eT een ot a a
۱ ee مره ٩
ی
/ 4 1
یک یادگیر شیف طویلا تخیر داده میشگید تایه دق بالثی برسد. ۰
ee ata
|
وه سس ٩
۱
8
صفحه 7:
Output
زمار
Input
xp) Combiner
صفحه 8:
Ensémble Averaging
ey
صفحه 9:
نتیجه گیری در مورد 91۳9 ۳56۲۱۵۱۵۷۸۲6۲3
ی
oO باياس سيستم حاصللا مشابه اس هر یک از خبره ها خواهد بود.
oe ee Tee) BB rei oe erent) OL i
See Ree ieee Nt Benn er Coe |
خواهد بود.
صفحه 10:
a ۳
۱
۱
۳ ( ۰ 4 دراین ال خروجی ۱۰شیکهباهم
Individual Experts Used ترکیب شده اند. میانگین
00 / 5616 توانسته به خطلى
مورد انتظارى كه كمتر از خطاى/
hee 060
برسد.
On wa! ا 0 0
7
Se oe Rene dd
© (/اختلاف
co
صفحه 11:
Bagging Vs)
1 اين روش نیز مبتنی بر رای گیْری است با اين تفاوت که یاد گیرهای پایه با داده
ep Cone sr Altay لو ده میشوند تا اندکی با هم تفاوت داشته باشند.
Cee ec eee SS STON N Eel See he
Page) tes Pete eC ev UNC eee 5
۰ مس وم ای مب تا eiodes
|
Cee eee
Se Rae ee KOR
راو راو )(
اس رنه ان نی سر جوا
مسر
aca ۱
1
صفحه 12:
breast cancer
glass
diabetes
Error rates on ۲
1 روش ۳:۸۱( برایالگوریتمهاییادگیر اپادار یعنیالگوریتمهثی که با تغیر دده
خرن عملکرد خونى شواهد يت در
صفحه 13:
6
صفحه 14:
ae
»+—Bagging
صفحه 15:
Boosting
اا ا متفاوت محسوسى
waa 500 ی را م
یکدیگر باشند. \
PCD TOTS NY ANIL EES. WO er
۱ Le ESC EO
3 منظور از یادگیر ضعیف این است که یاد گیر فقط کافی است که یک کمی از
حالت تصادفى بهتر عمل كند. (ج < و/ة)
000 ا ل ال FRC a AP
ميشود.
ا ا ا |
06
صفحه 16:
۱۱
|
| رب meer ewe ree
* له
1 Mer Sen enoM ES LT NESE eee od eT
erento Se eee ل ا ا
eid
PIE ا eS Pe ree a ene Soe te
ها توسط يك يادكير ضعيف ارزش كذارى شده و به آنها وزن داده ميشود.
6
صفحه 17:
a
-~< Boosting
“Onigmal
Training set 3
Training set 4
صفحه 18:
Boosting accuracy
Training
۳ ples
assification
differently
©
صفحه 19:
Boosting
06
صفحه 20:
AdaBoost (ADAptive #99
ل وض احتمال انتخاب,یک نمُونه * برای قرار گرفتن در مجموعه داده های
Pu cnen ete sie موی ean ie) ا [eC
میشود: ۱
0
Cat SC Seat at) 19
Reve ats ene ore tl ia ا ا Pen
eMC Ies 0[
| تمامی یادگیرها ضعیف و ساده بوده و باید خطائی کمتر از 22 داشته باشند در غیر
اینصورت آموزش متوقف میشود زیرا ادامه آن باعث خواهد شد COT poe
ا ل 0
er
صفحه 21:
Training
For all {2°
For all ba
Randomly draw 4
Train d, using
For each (zt,r‘), calculate yt — dj
Calculate error rate: «, — >, pf - (yf Ar*)
1/2, then لد >
For each
If ut
Normalize probabilitie:
ی یس
Testing
Given «, calculate d,(x),j =1
Calculate class outpu
vem Dy (low) ب
9
صفحه 22:
eo
Te ول ای
Learn)
صفحه 23:
ه06
صفحه 24:
۱ eit
۸ 0006 ۳۳
5
00 ne sre
9
صفحه 25:
es.
صفحه 26:
صفحه 27:
صفحه 28:
صفحه 29:
صفحه 30:
Methodology
Features Neural Network
Class | Cont Dise Hiddens _ Epochs
TO 0
690 : 10 35
000 4 0 10 5
9 5 3
10
10
heart-cleveland
hepatitis
house-votes-84
hy
ionosphere
krvs-kp
labe
letter 20000
prom 136 | 936
ribosome-bind | 1877
satellite
صفحه 31:
90
hepatitis
honse-votes-84
ionospher
iis
kr-vekp
Tabor
letter
promot
ribosome-bind
satellite
مهست
صفحه 32:
صفحه 33:
صفحه 34:
صفحه 35:
1
&
3
&
5
صفحه 36:
صفحه 37:
صفحه 38:
و
eee | 0070 وپایین آمدن کارائی
@ ن كاهش خِظًا با شبكه عصكّى با سايز ١8-١ ٠
© بيشترين كاهشخطا با درخت تصميّم با سايزه!
© مناسب بودن 200 0) روى اكثر مسائل
Ree ا AL |
30.
صفحه 39:
۲ پيشنهادات
4
| استفاده ازالگوریتم سس ۳
/ fy
ae TSE STE CTCL DN I Sep Seren ree |
PT اا ear para
لحك
صفحه 40:
Popular Ensemble Methods: An Empirical Study
استاد راهنما :دکتر کیومرث شیخ اسماعیلی
ارائه دهنده:
شهرام رحمانی
رحیم شیخی
مصطفی اعظمی
گروه Popular Ensemble Methods: An Empirical Study
مهندسي کامپيوتر و فناوری اطالعات دانشگاه کردستان
مقدمه
اصل ”نهار مجانی وجود ندارد“( )No Free Lunch Theoremبیان میدارد که:
هیچ الگوریتمی وجود ندارد که برای تمامی مسائل و در تمامی زمانها بهترین ( دقیق ترین)
یادگیر را بوجود آورد.
اگر تعدادی یادگیر پایه داشته باشیم میتوان با ترکیب نتایج آنها به دقت باالتری رسید.
ایده:
این یادگیرها ممکن است در موارد زیر با هم متفاوت باشند:
الگوریتم :که باعث میشود فرضیات مختلفی در مورد داده استفاده شود.
پارامترها :مثل تعداد گره های مختلف الیه پنهان شبکه های عصبی و یا Kمتفاوت در
KNN
نحوه نمایش :استفاده از تعداد متفاوت ویژگی برای هر یادگیر ،استفاده از مجموعه داده
متفاوت
مجموعه آموزشی :داده های آموزشی یادگیرها اندکی با هم تفاوت داشته باشند.
2
ترکیب دسته بندی کننده ها
روشهای مختلفی برای ترکیب نتایج دسته بندی
کننده ها وجود دارد:
متداولترین روشها میانگین گیری و یا استفاده
از رای اکثریت هستند
Final
انگیزه اصلی این کار در اینجاست که:
outpu
ما هنگام طراحی یک سیستم یادگیر انتخاب
t
های فراوانی داریم :نحوه نمایش ،پارامترهای
یادگیر ،داده های آموزشی و غیره.
این تنوع باعث میشود که نوعی از واریانس
در عملکرد سیستم وجود داشته باشد .در
نتیجه اگر سیستم های مختلفی داشته و از
نتایج آنها استفاده شود این امکان وجود دارد
که توزیع خطا حول هدف متمرکز شده و با
افزایش نمونه گیری از این توزیع به نتیجه
بهتری برسیم
3
d
d1
d2
d3
d4
5
input
Simple Majority Voting
4
خصوصیت دسته بندی کننده های پایه
برای اینکه بتوان نتیجه مناسبی از ترکیب دسته بندی کننده ها گرفت ،این دسته بندی کنن__ده
ها باید شرایط زیر را داشته باشند:
5
هر یک به تنهائی در حد قابل قبولی دقیق باشند .البته نیازی به بسیار دقیق بودن آنها نیست.
هر کدام مکمل دیگری عمل کنند .به این معنا که همگی نباید مشابه هم بوده و نتیجه یکسانی
تولید کنند.
انواع ترکیب دسته بندی کننده ها
Static structures
پاسخ چندین خبره بدون در نظر گرفتن سیگنال ورودی با هم ترکیب میشوند.
ensemble averaging
خروجی خبره های مختلف بصورت خطی با هم ترکیب شده و خروجی جمعی را بوج___ود می
آورد
boosting
یک یادگیر ضعیف طوری تغییر داده میشود تا به دقت باالئی برسد.
Dynamic structures
در این روش سیگنال ورودی در انتخاب مکانیسم ترکیب خبره ها تاثیر میگذارد.
6
mixture of experts
خروجی خبره ها توس___ط ی___ک شبکه Gating networkبص___ورت غ___یر خطی با هم ترکیب
میشوند.
hierarchical mixture of experts
خروجی خبره ها توسط چندین شبکه Gating networkک__ه بص__ورت سلس__له مراتبی قرار
داده شده اند بصورت غیر خطی با هم ترکیب میشوند.
Ensemble Methods
7
Ensemble Averaging
8
نتیجه گیری در موردEnsemble Averaging
اگر چندین خبره با بایاس و واریانس یکسان ،از طریق روش
ensemble-averagingبا هم ترکیب شوند:
بایاس سیستم حاصل مشابه بایاس هر یک از خبره ها خواهد بود.
واریانس سیستم حاصل کمتر از واریانس هر یک از خبره ها خواهد بود.
خطای میانگین سیستم حاصل کمتر از خطای میانگین هر یک از خبره ها
خواهد بود.
9
مثال
در این مثال خروجی 10شبکه با هم
ترکیب شده اند .میانگین
Ensembleتوانسته به خطای
مورد انتظاری که کمتر از خطای
میانگین شبکه های منفرد است ()D
برسد.
80.3%درصد صحت دسته بندی
کننده ترکیبی در مقابل%79.4
میانگین دسته بندی کننده منفرد
%1اختالف
10
Bagging روش
این روش نیز مبتنی بر رای گیری است با این تفاوت که یادگیرهای پایه با داده
.های آموزشی متفاوتی آموزش داده میشوند تا اندکی با هم تفاوت داشته باشند
در نتیجه در حالی که این یادگیرها بدلیل آموزش از مجموعه اصلی مشابه هم
خواهند بود بدلیل انتخاب تصادفی نمونه های آموزشی اندکی با هم اختالف نیز
.خواهند داشت
Bagging (Bootstrap Aggregating) - Breiman, 1996
take a training set D, of size N
for each network / tree / k-nn / etc…
- build a new training set by sampling N examples,
randomly with replacement, from D
- train your machine with the new dataset
end for
output is average/vote from all machines trained
11
مثال
روش Baggingبرای الگوریتمهای یادگیر ناپایدار یعنی الگوریتمهائی که با تغییر داده
دچار تغییر در نتیجه میشوند عملکرد خوبی خواهد داشت ( .شبکه عصبی و درخت
تصمیم نمونه ای از این الگوریتمها هستند .در حالیکه KNNپایدار است).
12
Bagging
13
Bagging
14
Boosting
اگر یادگیرهای پایه مشابه هم باشند ترکیب آنها نتیجه متفاوت محسوسی
نخواهد داشت .بهتر است که یادگیرها تصمیم گیری متفاوتی داشته و مکمل
یکدیگر باشند.
در Boostingسعی میشود تا تعدادی یادگیر پایه ضعیف که مکمل هم باشند
تولید شده و آنها را با اشتباه یادگیر قبلی آموزش داد.
منظور از یادگیر ضعیف این است که یادگیر فقط کافی است که یک کمی از
حالت تصادفی بهتر عمل کند)½ < e( .
در مقابل به یادگیری که با احتمال باالئی به دقت دلخواه برسد یادگیر قوی گفته
میشود.
منظور از Boostingاین است که یک یادگیر ضعیف را به یک یادگیر قوی
تبدیل کنیم.
15
Boosting
به هر یک از دسته بندی کننده های مورد استفاده یک خبره ( )expertگفته میشود .هر
خبره با مجموعه داده ای با توزیع متفاوت آموزش داده میشود.
برای پیاده سازی Boostingسه روش مختلف وجود دارد:
16
Filtering
در این روش فرض میشود مجموعه داده خیلی بزرگ است و مثالهائی که از آن
انتخاب میشوند ،یا حذف شده و یا به مجموعه داده برگردانده می شوند.
Subsampling
این روش با مجموعه داده های با اندازه ثابت بکار برده میشود .داده ها با استفاده
از یک توزیع احتمال مشخص مجدا نمونه برداری میشوند.
Reweighting
این روش نیز با مجموعه داده های با اندازه ثابت بکار برده میشود .ولی داده ها
توسط یک یادگیر ضعیف ارزش گذاری شده و به آنها وزن داده میشود.
Boosting
17
Boosting accuracy
Training
18
Boosting
19
)AdaBoost (ADAptive BOOSTing
در این روش احتمال انتخاب یک نمونه xtبرای قرار گرفتن در مجموعه داده های آموزشی
دسته بندی کننده j+1بر مبنای احتمال خطای دسته بندی کننده cjتعیین میشود:
اگر نمونه xtبدرستی دسته بندی شده باشد ،احتمال انتخاب شدن آن برای دسته بندی
کننده بعدی کاهش داده می شود.
اگر نمونه xtبدرستی دسته بندی نشود ،احتمال انتخاب شدن آن برای دسته بندی
کننده بعدی افزایش داده می شود.
تمامی یادگیرها ضعیف و ساده بوده و باید خطائی کمتر از ½ داشته باشند در غیر اینصورت
آموزش متوقف میشود زیرا ادامه آن باعث خواهد شد تا یادگیری برای دسته بندی کننده
بعدی مشکلتر شود.
20
یک نمونه از پیاده سازی الگوریتم AdaBoost
21
AdaBoost training
22
مثال
23
Arcing-x4
این روش از رای گیری وزن دار استفاده نمی کند.
اما وزن مثال ها با توجه به Kدسته بندی کننده ی قبلی با فرمول زیر
محاسبه می شود:
24
مثال
25
مثال
26
مثال
27
مثال
28
مثال
29
Methodology
30
Data Set Error Rates
31
Percent Reduction in Error
32
33
درصد کاهش خطا در شبکه عصبی
34
درصد کاهش خطا در درخت تصمیم
Ensemble Size
35
Noise
36
Error rates by the size of
ensemble & Noise
37
نتیجه گیری
نتیجه بهتر Boostingنسبت به Baggingوsingleها
حساسیت Boostingنسبت به نویز وپایین آمدن کارائی
بیشترین کاهش خطا با شبکه عصبی با سایز15-10
بیشترین کاهش خطا با درخت تصمیم با سایز25
مناسب بودن Baggingروی اکثر مسائل
باال بودن دقت Boostingدر شرایط مناسب
38
پیشنهادات
استفاده ازالگوریتم ژنتیک درانتخاب طبقه بندی کننده ها
انتخاب مناسب مقدارپارامترها ازقبیل الیه های مخفی و نرخ یادگیری و....
راهکاری برای ممانعت Overfitشدن Boostingدر دیتاهای حاوی نویز
39
40