صفحه 1:
Reyessiva را
1 واس حاص : Gared Ohi case
صفحه 2:
>< ايده اصلی
© دسته بندى كننده بيزى براى محاسبه WG ala eSY (WP)
مقادیر (۳)۷) و POY) را AK
© چرا مستفیما (۳)۲) یاد گرفته نشود؟
© لجستیک رگراسیون مقدار احتمال فوق را محاسبه میکند.
@ دسته بندی کننده بیزی یک دسته بندی مولد است در حالیکه
لجستیک رگراسیون یک دسته بندی کننده سراهسول
است.
صفحه 3:
72 امقدمه
@ بر خلاف نامش این روش برای دسته بندی مورد استفاده قرار
میگیرد نه رگراسیون,
© برای حالت 2 < ) اين مدل بسیار ساده بوده و از یک تابع
خطی بهره می جوید.
# بردار ورودی بصورت < 2 ... 260 > و بردارخروجی ۷
بولین در نظر گرفته میشود.
9 تمام :76 ها از ۷ مستقل فرض شده و مقدار (ارر = ۲ |۳0۵6
گوسی در نظر گرفته میشود. (0),0)
همچنین توزیع (/)۳) بصورت برنولی در نظر گرفته ميشود.
صفحه 4:
أذ مقایسه با رگراسیون خطی
٩ برای مدل کردن متغیرهائی که مقادیر محدودی به خود میگیرند
بهتر از رگراسیون خطی عمل میکند زیرا مدل خطی هر مقداری را
در خروجی تولید میکند درحالی که برای چنین متغیرهائی مقادیر
محدودی مورد نیاز است.
© در رگراسیون خطی مقدار متغیر مورد نظر از ترکیب خطی
متغیرهای مستقل بدست می آید در حالیکه در لجستیک رگراسیون
ان ترکیب خطی تابع وا استفاده میشود. Logit (P) = Log P/ (1-P)]
٩ در رگراسیون خطی پارامترها به روش حوویچو بط بدست می
آیند در حالیکه این روش برای لجستیک رگراسیون فاقد کارائی بوده
و از روش هو i براى بيدا كردن
پارامترها استفاده میشود.
صفحه 5:
03
1 1
((9)2 -2()1)و
صفحه 6:
احتمال تعلق به دسته ها
© احتمال تعلق به هر دسته را میتوان بصورت تابع لجستیک در
نظر گرفت:
1
exp(wo + Oj wiXi) +1
٩ ضرایب رر با استفاده از pts Cad yrodicut use
۱4۵ MS) HS
Logistic function ۳ 1 م
0
23
i S(x,w) بر ضت- ۲
LU 1 8
vector “V ۱ ۳
Input vector SW) = 2, (wx)
x 2)2( -1/0+07(
صفحه 7:
*؟ ااحتمال تعلق به دسته ها
# برای مقادیر پیوسته رابطه بصورت زیر است
33ص خا )ص13 ص مجح
ee kG) ae 1) PCX|Y = 1) + PCY = 0)PCX|Y = 0) 250
هد
5-7
+exp¢ (in =) 45m POT 7 1 ~~
ee ee sop HOH عياف
c meant
PY =11X) = ۲
1 1 6 وم iy ND
صفحه 8:
ات رابطه قبل
# برای بدست آوردن رابطه فوق از فرض گوسی بودن توزیع
احتمال استفاده شدم است:
0۲-0
Lenaren ~
= y (Meakin a
ات
(
= r(? 2Xi(jH0 — wa) = م۳0 ena
(“3
= y(#5 sa we sit) ۱
صفحه 9:
سایر نتایج
1
cap eag + i XD و( POPS ESS Xa
implies
a دس = _eep(wo + Xi wiXi)
PY = OX S< X1,.Xn >) > وه أ ES, weXs)
implies
PCY =0|X
OD = exp(wa + wx)
PUTS 1/96) 8 linear
سر classification
implies دزم مسر rule!
۱ = ورد وس
۱ ددع تج Lis
صفحه 10:
© مدل )را یک مرز خطی
بين دو دسته تعيين ميكند.
* براى مرز دو دسته داريم:
g,(x) = )8(:£
(),ع = )£1(9
)(£0 5 (<)رع
* از اینرو خواهیم داشت: و تفلي هارع
10
کب وگ
exp—(w"x)
ear
fhe g,(x) ing T+ exp—(w'x) _ logexp—(w'x) =w'x=0
5 )( 1
1+exp—(w"x)
صفحه 11:
برای حالت چند کلاسه
Now y E49, ... vai : learn R-J sets of weights
exp (wo + UL weiXi)
ل ل و << 2۵ چر>
DEEP exp(wjo + D2 wy Xi) سب = for k<R KIX)
1
=R PCY =ynlX) =
for K-R ۳0 ۷۸ 27 - رورس
+E
صفحه 12:
٩ فرض میشود که تعداد را داده آموزشی داشته باشیم.
EVEN 1
© براى بدست آوردن وزنها ميتوان از عمد ااا حم
عمبنوم استفاده کرد:
Woe = argmax P(< X1,¥! >... < XY? > |W) pono = لجيج
= romp [P< Xly'> |W)
طوری انتخاب شوند که >)(<>,,,, ... wa Gles ube
مقدار درستنمائی داده ماکزیمم شود.
۶ بجای رابطه فوق از درست نمائنی شرطی استفاده میشود:
Warcos = argmax [Pow x). اناا = Data conditional likelihood
i 1
صفحه 13:
Cxpressiny 0 لس Loy Likethpod
میتوان برای محاسبه مقدار فوق از پا عبارت فوق استفاده
5
UW) = inf eax) w) = Yin Paix) w) د
1 1
> (۱۷ ۵۲ لامر
i+
00
با فرض اينكه ٠/ فقط يكى از دو مقدار () يا ) را دارد خواهيمداشت:
sox! wy الا)ص مر(اط - 1) + ل ,|1 ع )ص ورتلارع = Ww)
1
ly
1 ۳ ماد 0 > ۵02, ۲۲(
YL Y'(wo + 3 w4X}) — In + exp(wo + 3 w;)X!))
7 : 7
۱
صفحه 14:
وجود ندارد.
© استفاده از تکنیک نزول گرادیان یکی از راه حل های موجود
است:
OE
wy,
Aw’ Iw)”
Qrunatcviztery 0 لس boy Likelikood
هیچ راه حل بسته ای برای ماکزیمم کردن درست نماتی شرطی ©
((إعدرس 5 + w)X!) — In(1 + exp(wo + ۵ د
i 7 1
Gradient
OB OE
۲۵] - |
Training rule:
Ad = كر
Le,
Aw; = -!
صفحه 15:
boy Likelkood: له من(
ایو( Groudiect
* تغیبرات وزن تا زمانی ادامه می یابد که مقدار آن خیلی ناچیز
change <e شود.
uw) = ny] Pax wy
1
5 مه وی + وتو eopluy + So wx)
1 7 1
0
((1 ,1 ع ابو پر - ( 54
Ow; 1 2
توجه شود كه عبارت داخل پرانتز بسادگی اختلاف بین مقدآر هدف و مقدار تابع احتمال آن است
مقادیر اولیه وزنها صفر در نظر گرفته میشود و مقادیر نهائی از تکرار عبارت زیر بدست می آید
For all i, repeat
w; wu; +9 Xi! — Py! = 1X',W))
4
صفحه 16:
32 امشکلات استفاده از را
© به خاطر ماهیت «رجحبیی بودن تابع (۱))0 رابطه فوق حتما
xfobal aa Sls را بيدا خواهد کرد.
© استفاده از ر() مى تواند براى داده هاى جدا يذير خطى به عورم
شدید منجر شود.
© دليل اين امر این است که راه حل را() وقتی اتفاق می افتد که ت
2 و با 20 بر شده و منجر به بزرگ شدن وزنها
ميشود.
© اين امر حتى وقتى كه تعداد داده ها نسبت به تعداد يارامترها زياد
باشد روى خواهد داد.
صفحه 17:
ta ۳ Qeyessioa ولبج؟)
© برای پرهیز از ,۳۵ جرس میتوان از عبارت رگولاریزیشن استفاده
نمود. این جمله طوری اضافه میشود که وزنهای بزرگ را جریمه
نماید:
penalized log likelihood function
Rogie
W = argmax InP" |X! W) —> ميزان تائير جمله جريمه زا تعيين ميكند 2| لاا 3.
2 2
)0696* با افزودن اين جمله تابع هدفی که باید ماکزیمم شود بصورت ©
در می آید زیرا تخمین 0968) بردار وزن دارای فرم کلی زیر است.
۶ که در آن (۳))0) دارای توزیع كوسى با ميانكد". صف ء ١1١ نانب ,
rm PX. W) +n PW) cual
32
صفحه 18:
*؟ استفاده از 0066
با افزودن ترم جریمه میتوان مطابق حالت قبل عمل یافتن وزنها
را با مشتق گیری و روش صعود گرادیان انجام داد:
2:0۷
2۳
:الط مس qradect المج
۲-۸ - (( dav
T
wy — wit NX! (Y! — PY! = 1X4 W)) — mz
T
صفحه 19:
OLE vs DOP
*دو روش 00۶) و 090() هر یک از روابط زیر برای پیدا
کردن وزنها استفاده میکنند.
+ Maximum conditional likelihood estimate
۳۰ ۱۲
11 319 93» "1 (y4xt Ww)
=11X,W))
wy — i +> XI
1
+ Maximum a posteriori estimate with prior W~N(0,a1)
W = argmax In[P(W) 11 PX" Wy]
vi —mdw; +n > XI" Py! = 1x), w)) ©
۱
صفحه 20:
۶۲و دی اه هو رد۲۱۹
functions with Many
Discrete Values
© براى حالت غير بولين كه ۷ هر مقدارا«....) را میتواند
داشته باشد داريم:
an 1
When ¥ = yg. itis
1
LLP oP exp(wjo + LE wii)
P(Y =yx\X) =
٩ در نتیجه قانون تغییر وزنها بصورت زير در می آید
=yj|X!,W)) — navy ۵0۳ - (ردع 80۲) ۶ 9 + یر زره
7
مشاهده میشود که حالت بولین حالت خاصی از روابط فوق است.
مه
صفحه 21:
Geveruive Chsshters 3
9 در اغلب مسایل عملی بدلیل پیچیدگی زیاد و يا وجود عدم
قطعیت نمی توان مدل ریاضی مشخصی را بدست آورد. در
چنین شرایطی می توان از مدل های احتمالاتی استفاده نمود که
در آنها دانش اولیه بصورت تایع چگالی احتمال مدل شده و با
مشاهده داده مقدار احتمال ثانویه محاسبه میشود.
© نمونه هانی از مدلهای مولد:
صفحه 22:
Ose Ouive @wes or bovsiic
?Rewessiva ee
لاجستیک رگراسیون مستقیما مقدار (۳)۷6) را محاسیه میک
درحالیکه بیزین سادهه انا مقلیر (۳/06[۷) لجی (۳)۳) را محاسبه میکند.
نشان داده ميشود كه وقتى تعداد داده هاى أموزشي زياد باشد و شرايط Bayer عره0) ممسعم() هم برقرار باشد لاجستیک
كرات لصم Dae سمت یه دز علت منن پاراسته ندیم ری تب
در حالینکه شرط عسری) سه() مججصی) برقرار نباشد لاجستیک رگراسیون نتایج بهتری بوجود می آورد.
همگرایی لاجستیک رگراسیین کند تر است.
* در لاجستيك ركراسيون بايد تعداد نمونه ها زياد باشد ( 00 تمونه بازای هر ستم
محم موی موی اون موی
doe cen comune cal eri. — لاسما میا ترا
+ herePore expenied w naperPorn (OB wheu bak ue name rote ka
اس oP parsers:
+00: Pa 1
LAR: wt
rae of pornomey pons — BAU URRY مومت
srreny) ears cerded i aecure gad eer?
+ GOO order ba (where a = # جات ms X)
COO vowerps wore quicky Wy ts (perkops سا د
tess
3 حم لس تبسر |
صفحه 23:
:: آیا دسته بندی کننده بیزی خطی است؟
* وقتی بردار ۷ دارای ویژگی های گسسته باشد الگوریتم بیز را
میتوان بصورت یک دسته بندی کننده خطی در نظر گرفت.
* برای حالت پیوسته نیز اگر واریانس هر ویژگی مستقل از
کلاس در نظر گرفته شود میتوان آنرا خطی در نظر گرفت.
(i.e. P sik = vi)
هه
صفحه 24:
Probebisic Ceveruive Orde
* در نگرش بیزین احتمال شرطی (:/د)م و احتمال اولیه
(0)م از روی داده های آموزشی یادگرفته شده و برای
ساختن احتمال ثانویه (بر/2۸))م بکار میروند.
P(X|Ci)p(Ci) + p(x|Ca)p(C2) ete px 6 ل6)م1
1 p(x|C2)p(C2)
إواودسى مه مه
= (عإ مام
* برای ورودی های پیوسته تابع چگالی احتمال شرطی کلاسی
بصورت گوسی فرض میشود:
06 = ِ (=n) BM)
صفحه 25:
Probebisic Ceveruive Orde
© برای حالت دو کلاسه داریم:
)0۱( = o(w? x + wo)
Hy) وا ع سو
لكام
P(C2)
wo = Suto + ed +n
۶ در اين رابطه با فرض اینکه تمامی کلاسها ماتریس کوواریانس
یکسانی دارند جملات مرتبه 9 از « حذف شده و رابطه
بصورت خطی در می آید.
es
