علوم پایه آمار

Logistic Regression

صفحه 1:
‎Reyessiva‏ را ‎1 ‏واس حاص‎ : Gared Ohi case ‎

صفحه 2:
>< ايده اصلی © دسته بندى كننده بيزى براى محاسبه ‎WG ala eSY (WP)‏ مقادیر (۳)۷) و ‎POY)‏ را ‎AK‏ © چرا مستفیما (۳)۲) یاد گرفته نشود؟ © لجستیک رگراسیون مقدار احتمال فوق را محاسبه میکند. @ دسته بندی کننده بیزی یک دسته بندی مولد است در حالیکه لجستیک رگراسیون یک دسته بندی کننده سراهسول است.

صفحه 3:
72 امقدمه @ بر خلاف نامش این روش برای دسته بندی مورد استفاده قرار میگیرد نه رگراسیون, © برای حالت 2 < ) اين مدل بسیار ساده بوده و از یک تابع خطی بهره می جوید. # بردار ورودی بصورت < 2 ... 260 > و بردارخروجی ۷ بولین در نظر گرفته میشود. 9 تمام :76 ها از ۷ مستقل فرض شده و مقدار (ارر = ۲ |۳0۵6 گوسی در نظر گرفته میشود. (0),0) همچنین توزیع (/)۳) بصورت برنولی در نظر گرفته ميشود.

صفحه 4:
أذ مقایسه با رگراسیون خطی ‎٩‏ برای مدل کردن متغیرهائی که مقادیر محدودی به خود میگیرند بهتر از رگراسیون خطی عمل میکند زیرا مدل خطی هر مقداری را در خروجی تولید میکند درحالی که برای چنین متغیرهائی مقادیر محدودی مورد نیاز است. ‏© در رگراسیون خطی مقدار متغیر مورد نظر از ترکیب خطی متغیرهای مستقل بدست می آید در حالیکه در لجستیک رگراسیون ان ترکیب خطی تابع وا استفاده میشود. ‎Logit (P) = Log P/ (1-P)]‏ ‎٩‏ در رگراسیون خطی پارامترها به روش حوویچو بط بدست می آیند در حالیکه این روش برای لجستیک رگراسیون فاقد کارائی بوده ‏و از روش هو ‎i‏ براى بيدا كردن پارامترها استفاده میشود. ‎

صفحه 5:
03 1 1 ((9)2 -2()1)و

صفحه 6:
احتمال تعلق به دسته ها © احتمال تعلق به هر دسته را میتوان بصورت تابع لجستیک در نظر گرفت: 1 ‎exp(wo + Oj wiXi)‏ +1 ‎٩‏ ضرایب رر با استفاده از ‎pts Cad yrodicut use‏ ۱4۵ MS) HS ‎Logistic function‏ ۳ 1 م 0 23 ‎i S(x,w)‏ بر ضت- ۲ ‎LU‏ 1 8 ‎vector “V ۱ ۳‏ ‎Input vector SW) = 2, (wx)‏ ‎x 2)2( -1/0+07( ‎

صفحه 7:
*؟ ااحتمال تعلق به دسته ها # برای مقادیر پیوسته رابطه بصورت زیر است 33ص خا )ص13 ص مجح ‎ee kG) ae 1) PCX|Y = 1) + PCY = 0)PCX|Y = 0)‏ 250 هد 5-7 ‎+exp¢ (in =) 45m POT 7‏ 1 ~~ ‎ee ee sop HOH‏ عياف ‎c meant‏ ‎PY =11X) = ۲‏ 1 1 6 ‏وم‎ iy ND

صفحه 8:
ات رابطه قبل # برای بدست آوردن رابطه فوق از فرض گوسی بودن توزیع احتمال استفاده شدم است: 0۲-0 Lenaren ~ = y (Meakin a ات ( = r(? 2Xi(jH0 — wa) = ‏م۳0‎ ena (“3 = y(#5 sa we sit) ۱

صفحه 9:
سایر نتایج 1 ‎cap eag + i XD‏ و( ‎POPS ESS Xa‏ implies a ‏دس‎ = _eep(wo + Xi wiXi) PY = OX S< X1,.Xn >) > ‏وه أ‎ ES, weXs) implies PCY =0|X OD = exp(wa + wx) PUTS 1/96) 8 linear ‏سر‎ classification implies ‏دزم مسر‎ rule! ۱ = ‏ورد وس‎ ۱ ‏ددع تج‎ Lis

صفحه 10:
© مدل )را یک مرز خطی بين دو دسته تعيين ميكند. * براى مرز دو دسته داريم: ‎g,(x)‏ = )8(:£ (),ع = )£1(9 )(£0 5 (<)رع * از اینرو خواهیم داشت: و تفلي هارع 10 ‏کب وگ‎ exp—(w"x) ear fhe g,(x) ing T+ exp—(w'x) _ logexp—(w'x) =w'x=0 5 )( 1 1+exp—(w"x)

صفحه 11:
برای حالت چند کلاسه Now y E49, ... vai : learn R-J sets of weights exp (wo + UL weiXi) ل ل و << 2۵ چر> ‎DEEP exp(wjo + D2 wy Xi)‏ سب = ‎for k<R KIX)‏ 1 =R PCY =ynlX) = for K-R ۳0 ۷۸ 27 - ‏رورس‎ +E

صفحه 12:
‎٩‏ فرض میشود که تعداد را داده آموزشی داشته باشیم. ‎EVEN‏ 1 ‏© براى بدست آوردن وزنها ميتوان از عمد ااا حم ‏عمب‌نوم استفاده کرد: ‎Woe = argmax P(< X1,¥! >... < XY? > |W) pono = ‏لجيج‎ ‎= romp [P< Xly'> |W) ‏طوری انتخاب شوند که‎ >)(<>,,,, ... wa Gles ube ‏مقدار درستنمائی داده ماکزیمم شود. ۶ بجای رابطه فوق از درست نمائنی شرطی استفاده میشود: ‎Warcos = argmax [Pow x).‏ اناا = ‎Data conditional likelihood‏ ‎i 1 ‎

صفحه 13:
Cxpressiny 0 ‏لس‎ Loy Likethpod میتوان برای محاسبه مقدار فوق از پا عبارت فوق استفاده 5 UW) = inf eax) w) = Yin Paix) w) ‏د‎ ‎1 1 > (۱۷ ۵۲ لامر ‎i+‏ 00 با فرض اينكه ‎٠/‏ فقط يكى از دو مقدار () يا ) را دارد خواهيمداشت: ‎sox! wy‏ الا)ص مر(اط - 1) + ل ,|1 ع )ص ورتلارع = ‎Ww)‏ ‏1 ly 1 ۳ ‏ماد‎ 0 > ۵02, ۲۲( YL Y'(wo + 3 w4X}) — In + exp(wo + 3 w;)X!)) 7 : 7 ۱

صفحه 14:
وجود ندارد. © استفاده از تکنیک نزول گرادیان یکی از راه حل های موجود است: OE wy, Aw’ Iw)” Qrunatcviztery 0 ‏لس‎ boy Likelikood ‏هیچ راه حل بسته ای برای ماکزیمم کردن درست نماتی شرطی‎ © ((إعدرس 5 + ‎w)X!) — In(1 + exp(wo‏ + ۵ د ‎i‏ 7 1 Gradient OB OE ۲۵] - | Training rule: Ad = ‏كر‎ ‎Le, Aw; = -!

صفحه 15:
‎boy Likelkood:‏ له من( ایو( ‎Groudiect‏ ‎ ‏* تغیبرات وزن تا زمانی ادامه می یابد که مقدار آن خیلی ناچیز ‎change <e ‏شود.‎ ‎uw) = ny] Pax wy 1 5 ‏مه وی + وتو‎ eopluy + So wx) 1 7 1 ‏0 ‏((1 ,1 ع ابو پر - ( 54 ‎Ow; 1 2‏ ‏توجه شود كه عبارت داخل پرانتز بسادگی اختلاف بین مقدآر هدف و مقدار تابع احتمال آن است مقادیر اولیه وزنها صفر در نظر گرفته میشود و مقادیر نهائی از تکرار عبارت زیر بدست می آید ‎For all i, repeat w; wu; +9 Xi! — Py! = 1X',W)) ‎4

صفحه 16:
32 امشکلات استفاده از را © به خاطر ماهیت «رجحبیی بودن تابع (۱))0 رابطه فوق حتما ‎xfobal aa Sls‏ را بيدا خواهد کرد. © استفاده از ر() مى تواند براى داده هاى جدا يذير خطى به عورم شدید منجر شود. © دليل اين امر این است که راه حل را() وقتی اتفاق می افتد که ت 2 و با 20 بر شده و منجر به بزرگ شدن وزنها ميشود. © اين امر حتى وقتى كه تعداد داده ها نسبت به تعداد يارامترها زياد باشد روى خواهد داد.

صفحه 17:
‎ta ۳ Qeyessioa‏ ولبج؟) ‏© برای پرهیز از ,۳۵ جرس میتوان از عبارت رگولاریزیشن استفاده نمود. این جمله طوری اضافه میشود که وزنهای بزرگ را جریمه نماید: ‎ ‎penalized log likelihood function Rogie W = argmax InP" |X! W) —> ‏ميزان تائير جمله جريمه زا تعيين ميكند 2| لاا‎ 3. 2 2 )0696* ‏با افزودن اين جمله تابع هدفی که باید ماکزیمم شود بصورت‎ © ‏در می آید زیرا تخمین 0968) بردار وزن دارای فرم کلی زیر است. ‏۶ که در آن (۳))0) دارای توزیع كوسى با ميانكد". صف ء ‎١1١‏ نانب , ‎rm PX. W) +n PW) cual ‎32

صفحه 18:
*؟ استفاده از 0066 با افزودن ترم جریمه میتوان مطابق حالت قبل عمل یافتن وزنها را با مشتق گیری و روش صعود گرادیان انجام داد: 2:0۷ 2۳ :الط مس ‎qradect‏ المج ۲-۸ - (( dav T wy — wit NX! (Y! — PY! = 1X4 W)) — mz T

صفحه 19:
OLE vs DOP ‏*دو روش 00۶) و 090() هر یک از روابط زیر برای پیدا‎ ‏کردن وزنها استفاده میکنند.‎ + Maximum conditional likelihood estimate ۳۰ ۱۲ 11 319 93» "1 (y4xt Ww) =11X,W)) wy — i +> XI 1 + Maximum a posteriori estimate with prior W~N(0,a1) W = argmax In[P(W) 11 PX" Wy] vi —mdw; +n > XI" Py! = 1x), w)) © ۱

صفحه 20:
۶۲و دی اه هو رد۲۱۹ ‎functions with Many‏ ‎Discrete Values‏ © براى حالت غير بولين كه ۷ هر مقدارا«....) را میتواند داشته باشد داريم: an 1 When ¥ = yg. itis 1 LLP oP exp(wjo + LE wii) P(Y =yx\X) = ‎٩‏ در نتیجه قانون تغییر وزنها بصورت زير در می آید ‎=yj|X!,W)) — navy‏ ۵0۳ - (ردع 80۲) ۶ 9 + یر زره 7 ‏مشاهده میشود که حالت بولین حالت خاصی از روابط فوق است. ‏مه

صفحه 21:
Geveruive Chsshters 3 9 در اغلب مسایل عملی بدلیل پیچیدگی زیاد و يا وجود عدم قطعیت نمی توان مدل ریاضی مشخصی را بدست آورد. در چنین شرایطی می توان از مدل های احتمالاتی استفاده نمود که در آنها دانش اولیه بصورت تایع چگالی احتمال مدل شده و با مشاهده داده مقدار احتمال ثانویه محاسبه میشود. © نمونه هانی از مدلهای مولد:

صفحه 22:
Ose Ouive @wes or bovsiic ?Rewessiva ee لاجستیک رگراسیون مستقیما مقدار (۳)۷6) را محاسیه میک درحالیکه بیزین سادهه انا مقلیر (۳/06[۷) لجی (۳)۳) را محاسبه میکند. نشان داده ميشود كه وقتى تعداد داده هاى أموزشي زياد باشد و شرايط ‎Bayer‏ عره0) مم‌سعم() هم برقرار باشد لاجستیک كرات لصم ‎Dae‏ سمت یه دز علت منن پاراسته ندیم ری تب در حالینکه شرط عسری) سه() مججصی) برقرار نباشد لاجستیک رگراسیون نتایج بهتری بوجود می آورد. همگرایی لاجستیک رگراسیین کند تر است. * در لاجستيك ركراسيون بايد تعداد نمونه ها زياد باشد ( 00 تمونه بازای هر ستم محم موی موی اون موی ‎doe cen comune cal eri.‏ — لاسما میا ترا + herePore expenied w naperPorn (OB wheu bak ue name rote ka ‏اس‎ oP parsers: +00: Pa 1 LAR: wt ‎rae of pornomey pons — BAU URRY‏ مومت ‎srreny) ears cerded i aecure gad eer? ‎+ GOO order ba (where a = # ‏جات‎ ms X) ‎COO vowerps wore quicky Wy ts (perkops‏ سا د ‎tess‏ ‏3 حم لس تبسر |

صفحه 23:
:: آیا دسته بندی کننده بیزی خطی است؟ * وقتی بردار ۷ دارای ویژگی های گسسته باشد الگوریتم بیز را میتوان بصورت یک دسته بندی کننده خطی در نظر گرفت. * برای حالت پیوسته نیز اگر واریانس هر ویژگی مستقل از کلاس در نظر گرفته شود میتوان آنرا خطی در نظر گرفت. ‎(i.e. P sik = vi)‏ هه

صفحه 24:
Probebisic Ceveruive Orde * در نگرش بیزین احتمال شرطی (:/د)م و احتمال اولیه (0)م از روی داده های آموزشی یادگرفته شده و برای ساختن احتمال ثانویه (بر/2۸))م بکار میروند. P(X|Ci)p(Ci) + p(x|Ca)p(C2) ete px 6 ‏ل6)م1‎ ‎1 p(x|C2)p(C2) إواودسى مه مه = (عإ مام * برای ورودی های پیوسته تابع چگالی احتمال شرطی کلاسی بصورت گوسی فرض میشود: 06 = ِ (=n) BM)

صفحه 25:
Probebisic Ceveruive Orde © برای حالت دو کلاسه داریم: )0۱( = o(w? x + wo) ‎Hy)‏ وا ع سو ‏لكام ‎P(C2)‏ ‎ ‎wo = Suto + ed +n ‏۶ در اين رابطه با فرض اینکه تمامی کلاسها ماتریس کوواریانس یکسانی دارند جملات مرتبه 9 از « حذف شده و رابطه بصورت خطی در می آید. ‎es

Logistic Regression Instructor : Saeed Shiry  1 ایده اصلی دسته بندی کننده بیزی برای محاسبه ) P(Y|Xالزم دارد تا مقادیر ) P(Yو ) P(X|Yرا یاد بگیرد. چرا مستقیما ) P(Y|Xیاد گرفته نشود؟ لجستیک رگراسیون مقدار احتمال فوق را محاسبه میکند. دسته بندی کننده بیزی یک دسته بندی مولد است در حالیکه لجستیک رگراسیون یک دسته بندی کننده discriminative است. 2 مقدمه بر خالف نامش این روش برای دسته بندی مورد استفاده قرار میگیرد نه رگراسیون. برای حالت K = 2این مدل بسیار ساده بوده و از یک تابع خطی بهره می جوید. بردار ورودی بصورت < > X1 … Xnو بردارخروجی Yبولین در نظر گرفته میشود. تمام Xiها از Yمستقل فرض شده و مقدار )P(Xi | Y = yk گوسی در نظر گرفته میشودN(μik,σi) . همچنین توزیع ) P(Yبصورت برنولی در نظر گرفته میشود. 3 مقایسه با رگراسیون خطی برای مدل کردن متغیرهائی که مقادیر محدودی به خود میگیرند بهتر از رگراسیون خطی عمل میکند زیرا مدل خطی هر مقداری را در خروجی تولید میکند درحالی که برای چنین متغیرهائی مقادیر محدودی مورد نیاز است. در رگراسیون خطی مقدار متغیر مورد نظر از ترکیب خطی متغیرهای مستقل بدست می آید در حالیکه در لجستیک رگراسیون از ترکیب خطی تابع logitاستفاده میشود. در رگراسیون خطی پارامترها به روش least squaresبدست می آیند در حالیکه این روش برای لجستیک رگراسیون فاقد کارائی بوده و از روش maximum likelihood estimationبرای پیدا کردن پارامترها استفاده میشود. 4 logistic function مقدار این تابع و مشتق آن توسط روابط زیر تعریف میشود: 5 احتمال تعلق به دسته ها احتمال تعلق به هر دسته را میتوان بصورت تابع لجستيک در نظر گرفت: ضرایب wبا استفاده از gradient ascentتعیین میشود. 6 احتمال تعلق به دسته ها برای مقادیر پیوسته رابطه بصورت زیر است 7 فرضیات رابطه قبل برای بدست آوردن رابطه فوق از فرض گوسی بودن توزیع احتمال استفاده شده است: 8 سایر نتایج 9 Discriminant functions مدل LRیک مرز خطی بین دو دسته تعیین میکند. برای مرز دو دسته داریم: از اینرو خواهیم داشت: 10 برای حالت چند کالسه 11 بدست آوردن وزنها فرض میشود که تعداد Lداده آموزشی داشته باشیم. برای بدست آوردن وزنها میتوان ازmaximum likelihood estimateاستفاده کرد: باید وزنهای >W=<w0, ... wnطوری انتخاب شوند که مقدار درستنمائی داده ماکزیمم شود. بجای رابطه فوق از درست نمائی شرطی استفاده میشود: 12 Expressing Conditional Log Likelihood میتوان برای محاسبه مقدار فوق از logعبارت فوق استفاده نمود. با فرض اینکه Yفقط یکی از دو مقدار 0یا 1را دارد خواهیمداشت: 13 Maximizing Conditional Log Likelihood هیچ راه حل بسته ای برای ماکزیمم کردن درست نمائی شرطی وجود ندارد. استفاده از تکنیک نزول گرادیان یکی از راه حل های موجود است: 14 Maximize Conditional Log Likelihood: ‏Gradient Ascent تغییرات وزن تا زمانی ادامه می یابد که مقدار آن خیلی ناچیز شود. توجه شود که عبارت داخل پرانتز بسادگی اختالف بین مقدار هدف و مقدار تابع احتمال آن است مقادیر اولیه وزنها صفر در نظر گرفته میشود و مقادیر نهائی از تکرار عبارت زیر بدست می آید 15 مشکالت استفاده از ML به خاطر ماهیت concaveبودن تابع ) l(Wرابطه فوق حتما ماکزیمم globalرا پیدا خواهد کرد. استفاده از MLمی تواند برای داده های جدا پذیر خطی به over fittingشدید منجر شود. دلیل این امر این است که راه حل MLوقتی اتفاق می افتد که = σ 0.5و یا wTφ =0شده و منجر به بزرگ شدن وزنها میشود. این امر حتی وقتی که تعداد داده ها نسبت به تعداد پارامترها زیاد باشد روی خواهد داد. 16 Regularization in Logistic Regression برای پرهیز از over fittingمیتوان از عبارت رگوالریزیشن استفاده نمود. این جمله طوری اضافه میشود که وزنهای بزرگ را جریمه نماید: میزان تاثیر جمله جریمه را تعیین میکند ‏ با افزودن این جمله تابع هدفی که باید ماکزیمم شود بصورت MAPدر می آید زیرا تخمین MAPبردار وزن دارای فرم کلی زیر است. که در آن ) P(Wدارای توزیع گوسی با میانگین صفر و واریانس است. 17 استفاده از MAP با افزودن ترم جریمه میتوان مطابق حالت قبل عمل یافتن وزنها را با مشتق گیری و روش صعود گرادیان انجام داد: ‏modified gradient descent rule: 18 MLE vs MAP دو روش MlEو MAPهر یک از روابط زیر برای پیدا کردن وزنها استفاده میکنند. 19 Logistic Regression for ‏functions with Many ‏Discrete Values برای حالت غیر بولین که Yهر مقدار داشته باشد داریم: را میتواند در نتیجه قانون تغییر وزنها بصورت زیر در می آید 20 مشاهده میشود که حالت بولین حالت خاصی از روابط فوق است. Generative Classifiers در اغلب مسایل عملی بدلیل پیچیدگی زیاد و یا وجود عدم قطعیت نمی توان مدل ریاضی مشخصی را بدست آورد .در چنین شرایطی می توان از مدل های احتماالتی استفاده نمود که در آنها دانش اولیه بصورت تابع چگالی احتمال مدل شده و با مشاهده داده مقدار احتمال ثانویه محاسبه میشود. نمونه هائی از مدلهای مولد: 21 ‏mixture model ‏Bayesian networks ‏hidden ‏Markov models Use Naïve Bayes or Logisitic ?Regression را محاسیه میکندP(Y|X) الجستیک رگراسیون مستقیما مقدار . را محاسبه میکندP(Y) and P(X|Y) ابتدا مقادیر،درحالیکه بیزین ساده هم برقرار باشد الجستیکGaussian Naive Bayes نشان داده میشود که وقتی تعداد داده های آموزشی زیاد باشد و شرایط . در حالت حدی به دسته بندی مشابهی میرسندGaussian Naive Bayes رگراسیون و . برقرار نباشد الجستیک رگراسیون نتایج بهتری بوجود می آوردGaussian Naive Bayes در حالیتکه شرط .همگرایی الجستیک رگراسیون کند تر است ) نمونه بازای هر دسته50 ( در الجستیک رگراسیون باید تعداد نمونه ها زیاد باشد                 when conditional independence assumptions incorrect • LR is less biased – does not assume cond indep. • therefore expected to outperform GNB when both given infinite training data Number of parameters: • NB: 4n +1 • LR: n+1 convergence rate of parameter estimates – how many training examples needed to assure good estimates? • GNB order log n (where n = # of attributes in X) • LR order n GNB converges more quickly to its (perhaps less accurate) asymptotic estimates 22 آیا دسته بندی کننده بیزی خطی است؟ وقتی بردار Xدارای ویژگی های گسسته باشد الگوریتم بیز را میتوان بصورت یک دسته بندی کننده خطی در نظر گرفت. برای حالت پیوسته نیز اگر واریانس هر ویژگی مستقل از کالس در نظر گرفته شود میتوان آنرا خطی در نظر گرفت. )(i.e., if sik = si 23 Probabilistic Generative Models در نگرش بیزین احتمال شرطی ) p(x|Ckو احتمال اولیه ) p(Ckاز روی داده های آموزشی یادگرفته شده و برای ساختن احتمال ثانویه ) p(Ck|xبکار میروند. برای ورودی های پیوسته تابع چگالی احتمال شرطی کالسی بصورت گوسی فرض میشود: 24 Probabilistic Generative Models برای حالت دو کالسه داریم: در این رابطه با فرض اینکه تمامی کالسها ماتریس کوواریانس یکسانی دارند جمالت مرتبه 2از xحذف شده و رابطه بصورت خطی در می آید. 25

51,000 تومان