صفحه 1:
استاد راهنما: دکتر جمال شهرابي ارائه دهنده: علي يوسف الهي

صفحه 2:
هدف آنالیز تمایز استفاده اطلاعات حاصله از متغيرهاي مستقل براي دستيابي به واضحترین تفکیک یا تمایز بین يا درون گروهها است.

صفحه 3:

صفحه 4:

صفحه 5:
نظر او پیدا کردن ترکیب خطي از متغيرهاي مستقل + است که تفاوت را میان گروهها ماکزیمم کند.

صفحه 6:

صفحه 7:
شرب تفاوت بين ميانكين هاي دو ‎toy,‏ ی وله )12.1( ‎١‏ انتحاب ‎١‏ به صورت ريو ‎ke Ci val 000 ‏ماكزيمم مي شود.‎

صفحه 8:
تمایز در ‎are ee stats‏ نقطه میا ن دو گروه رابه هم وصل کند.

صفحه 9:
555 3

صفحه 10:
“2 -,ك عمعل = ۳

صفحه 11:

صفحه 12:
2 از جايگذاري و ساده ‎a 4 ۹‏ ‎‘i‏ تست 7 2 سرا ‎SS, Saeco Cea 3‏ ل'00'ل» ركد

صفحه 13:

صفحه 14:
است با

صفحه 15:
(Pe AP | ‏روش »ها‎ Ol Tee) OO SC

صفحه 16:
7 led ٩ ‏رت‎ (4-12) eto

صفحه 17:

صفحه 18:

صفحه 19:
۱ iene oe) ۱ ane ce.4) 6

صفحه 20:
روش ‎Mahalanobis‏

صفحه 21:
‎A Sp Sle ol»‏ اد تمايز براي امتياز دادن به مشتريان ‏باقیمانده مي تواند استفاده کند در اين مثال روي دو متغير تم رکز مب شویم: 1- ماههابي كه از آخرین خرید کتاب از آن شرکت گذشته است. ‏2- تعداد کتابهاي هنري خريداري شده.

صفحه 22:
Months since last purchase

صفحه 23:

صفحه 24:

صفحه 25:
Box (1949,1950)} 7 aged ‏نس‎ 5 8-0- ‏اه‎ x 5 1 ‏اب لح‎ 2 (ca el

صفحه 26:
= 2 عاسط را در اینجا تست

صفحه 27:

صفحه 28:

صفحه 29:
زمانیکه بیشتر از یک متغیر 2 داریم : 00 ‎say‏ 0 اا 1 سدس 5 : a 0 که م تعداد متقيرهاي ‎Giles‏ ‏کته ات

صفحه 30:
Cutoff (6) anne همه مشاهدات با مقدار تابع نمایز ,۴<] به یک گروه مربوط مي شوند و باقیمانده مشاهدات به گروه دیگر ‎ae‏ برابر باشد:

صفحه 31:
نیکویی برازش ‎so}‏ ‏حك

صفحه 32:
actual 7۳ ۳۳۳ re = ‏م3 ۰ دوصد لفزلیش‎ ۲ ‏سب‎ laps

صفحه 33:
کت Group2 np2 np(1-p) np np(1-p) n(1-p)? n(1-p) n(1-p) Assign observation to group 1 with probability = p Assign observation to group 2 with probability = 1- p

صفحه 34:
طرح ما بکار بردن روش 82۷65137 براي مسأله ‎classification‏ ‏وصفي مي باشد. هزینه 5۱2551621100 (يا سود یاوعد صحیح) را مشخص مي کنیم. بنابراین از اطلاعات تابع تمایز براي به روز کردن 0۲۱۵۲5 استفاده مي کنیم.

صفحه 35:
اسسال شاه اد ازگروه 2: P(x| group) = exp 1p 1 lav 2r

صفحه 36:
11 و 00178و اليه + (إناهرو انليج gPx|group g@P(x| group) if |. 9 0 9 2

صفحه 37:
اگر بخواهیم از هزینه ۱252166۵1100 نیز استفاده کنیم: (112) هزینه دسته بندي کردن مشاهدات به گروه 1 در حالیکه حقيقتاً م وه 2 باشد. 021 سل لو[ نمع ‎<x 8)‏

صفحه 38:

صفحه 39:

صفحه 40:
‎our X,)‏ ( رات نو ‎Lula ‏براین مشاهد ‎I‏ ‏۳۳ ‏تخصیص مي دهیم. ~

صفحه 41:
یراس معا — «W"(A+W)= ‏که سكن 05-7 به صورت زیر مي‎ باشد: 1 1 ‎TOT]‏ +2۳۳

صفحه 42:
آزمون آماري(ر ‎al‏ A =JJa- 46) ‏لت‎ ‏ا‎ 116: ۳

صفحه 43:
9 خانه در ء۸۱:0 م۱ 3خانه در ۴۵۲۲ ۱۸۵۴۱۰ ‎Palo Alto,2 ail>13‏ 1- قیمت خانه (بر حسب هزار دلار) 2- تعداد اتاقهاي خواب 3- مساحت خانه (بر حسب هزارفوت مربع)

صفحه 44:
یر با نگاه کردن به ارزشهاي نسبي از دو مقدار ویژه. مي بینیم که تابع تمایز اول تمایز بهتري براي مشاهدات بین گروهي نسبت به دومي است. جدول ضرایب تابع تمایز را براي هر کدام از دو تابع ‎Gales‏ price Bedrooms Lots size 1 0.6181 0.2660 0.9746 2 0.399 0.8403 - 0.1585

صفحه 45:
2 4 oO qd 8 9 First discriminant function

به نام خدا درس داده کاوي موضوع :آناليز تمايز استاد راهنما :دکتر جمال شهرابي ارائه دهنده :علي يوسف الهي پاييز 86 Data Mining آناليز تمايز هدف آناليز تمايز استفاده اطالعات حاصله از متغيرهاي مستقل براي دستيابي به واضحترين تفکيک يا تمايز بين يا درون گروهها است. آناليز تمايز دوگروهه و رگرسيون چندگانه کاربردها حل مسائل آناليز تمايز دوگروهه : -1روش Fisher -2روش Mahalanobis روش Fisher روش Fisherبر پايه درک امتياز تمايز مي باشد. نظر او پيدا کردن ترکيب خطي از متغيرهاي مستقل xاست که تفاوت را ميان گروهها ماکزيمم کند. روش Fisher تابع فيشر به صورت t=Xk است. :kتNNرکيبخطي :tتابع تمايز فيشر انتخاب ترکيب خطي kرا به صورت ماکزيمم کردن نسبت مجموع مربعات بين گروهي به مجموع مربعات درون گروهي از تابع tپيشنهاد داده است. روش Fisher نسبت فيشر به صورت زير مي باشد: ()12.1 ‏k 'dd 'k ‏k 'cw k ‏d:بردار تفاوت بين ميانگين هاي دو گروه :CwمNاتريNسکNNووارNيانNسدرون ‏NيختهN ‏NروهيآN گN معادله ()12.1 هدفم در تابع با انتخاب kبه صورت زير ماکزيمم مي شود. ()12.2 ‏1 ‏w ‏k c d روش Fisher زمانيکه هيچ همبستگي درون گروهي بين X1و X2وجود ندارد چه اتفاقي مي افتد؟ ‏k=d ‏Cw=Cw-1=I پس پيشنهاد مي شود که محور تابع تمايز در راستاي خطي باشد که دو نقطه ميانگين دو گروه را به هم وصل کند. Fisher روش x1 (0,0) x 2 (1,0) 1 w c  1 0 0 1 Group 1 Group 2 Fisher روش x1 (0,0) x 2 (1,0) وابسته باشند چهX2 وX1 اگر اتفاقي مي افتد؟ Group 1 2 1 cw  1 2 2 1   3 3 1 cw  1 2   3 3  Group 2 k( 2 3 ,  13)' اثباتFisher روش مجموع مربعات درون :)SSw( گروهي SSw  (ti (1)  t(1) )   (ti (2)  t(2) ) 2 2 i i t=Xk داشت :يم بنابراين :داريم SSw k '[ (xi (1)  x (1) )(xi (1)  x (1) )'  (xi (2)  x (2) )(xi (2)  x (2) )']k i i SSw  k 'cw k اثباتFisher روش 2 مجموع مربعات بين :)SSA(گروهي 2 SSA n1(t(1)  t )  n2 (t(2)  t ) بعد از جايگذاري و ساده 2 2 :داريم سازي     n2  n1  SSA k ' n1   dd ' n2   dd ' k   (n1  n2    (n1  n2  SSA  k 'dd 'k در :نتيجه روش Fisherاثبات هدف انتخاب Kاي است که عبارت زير را ماکزيمم کند. ‏k 'dd 'k ‏L ‏k 'cw k با مشتق گرفتن از Lبر حسب kو برابر صفر قرار دادن آن kرا بدست مي آوريم: ‏1 ‏w ‏k c d ارتباط باFisher روش رگرسيون SSw MIN SSA  SSw   MIN  1  SSA  SSA MAX SST SSA MAX SSw تابع هدف فيشر  SSw  SSA  SST MIN    SSA  SSA و معادل است با SST MIN SSA روش Fisherارتباط با رگرسيون ‏1 ‏T ‏k c d داشتيم : ‏1 ‏b ( X ' X ) X ' y اگر مشاهده iدر گروه 1باشد اگر مشاهده iدر گروه 2باشد ‏X’y=d ‏X’X  CT , ‏1 ‏T ‏1 1 ‏n1 ‏yi  1 ‏n2 ‏b ( X ' X ) X ' y  C d k ‏yi  Mahalanobis روش يراNقاطNNينNکانهندسNهد مNيدNاد مNيشنهNN پMahalanobis گيندوNيانNبر از مNراNN بNلهNاصNNيفN داراNهN نيم کNNيدا کNNپ . هستندNروهNNگ 2 1 )3-12( 1 1 w 1 D (x  x )c (x  x ) 2 2 1 w D (x  x 2)c (x  x 2) 2 2 2 D1 = D )4-12( Mahalanobis روش x1 (0,0) x 2 (1,0) اگر هيچ همبستگي بين متغيرهاي : نباشدX2 وX1 Group 1  1 0 c  1  0 2 1 w 1 Group 2 x1  12 2 1 x  x 22 2 2 (x1  1)  x 22 2  x1  12 Mahalanobis روش وX1 زمانيکه همبستگي مثبتي بين : برقرار باشدX2 x1 (0,0) x 2 (1,0)  c   1 w 2 3 2 1 2 3 1 3 Group 1 Group 2 1 3   2  3  2 2 2 2 2 x  x 1x 2  x  (x1  1)  (x1  1)x 2  x or 2 3 x 2 2x1  1 2 3 2 3 2 3 2 3 اثباMahalanobis روش ت 2 1 1  D (x  x1) cw (x  x1) D12=D22 D22 (x  x2)cw 1(x  x2 ) 1 w 1 w (x  x(1) )'c (x  x(1) )  (x  x(2) )'c (x  x(2) ) 0 1 w 1 (1) w 1 (2) w با جايگذاري و ساده :سازي داريم 2xc d '  x c d  x c d x 'k  (t(1)  t(2) ) 2 روش Fisher ? روش Mahalanobis مثا ل از ميان 50000مشتري شرکت به 1000مشتري به طور تصادفي نام کتاب را پست مي کند. 83نفر از آنها کتاب را مي خرند. شرکت تمايل به استفاده از تابع تمايز دارد تا درک بهتري از فاکتورهاي مجزاکننده خريداران از غير خريداران را داشته باشد. در اين مثال ،شرکت از تابع تمايز براي امتياز دادن به مشتريان باقيمانده مي تواند استفاده کند. در اين مثال روي دو متغير متمرکز مي شويم: -1ماههايي که از آخرين خريد کتاب از آن شرکت گذشته است. -2تعداد کتابهاي هنري خريداري شده. 4 No buyers + Buyers Number of art books purchase 3 2 1 0 0 10 02 Months since last purchase 03 04 مثا ل -1خريداران به داشتن ميانگين پايين تري از ماههاي آخرين خريد ( ) 9.4و تعداد باالتري از کتابهاي هنري خريداري شده( )1.0تمايل دارند. -2غير خريداران به ميانگين باالتري از ماههاي آخرين خريد( )12.7و ميانگين کمتري از تعداد کتابهاي هنري خريداري شده( )0.3تمايل دارند. )d (x2  x1) (9.4,1)  (12.7,0.33) ( 3.3,0.67 ‏1 ‏w ')k c d ( 0.056,1.577 آزمون برابري ماتريسهاي کوواريانس )Box (1949,1950 ‏H0  1  2   G  ‏ :ماتريسVar/Cov ‏g گروه g : Gتعداد گروهها ) Cw(gمNاتريNسکNNووارNيانNسگNNــروNهg N و CwمNاتريNسکNNووارNيانNسآNمNيختهN بNNNينگNNروNهيو ngتNNNعNداد مNشاهداNت گNNروNه g NمNيبNNاشNند .آNمارNهB N لNNگــارNيNتم گNNرفNته NآNمارNه M NمNي بNNاشد. حداقل يکي با بقيه متفاوت باشد 0 2 )(ng  1 ‏ ‏ ‏ ‏ ‏H1  ) cw( g ‏M  ‏g  cw ‏ Box (1949,1950)    B (1 c)    (ng  1) ln cw    g  where  1  c    g (ng 1)  آزمون برابري ماتريسهاي کوواريانس  g  (ng  1)ln cw(g)     2 1   2p  3p  1     g (ng  1)   6( p 1)(G  1)   آزمون برابري ماتريسهاي کوواريانس مثا ل مثال books by mailرا در اينجا تست مي کنيم: ‏P=2, G=2 , n1=917 , n2=83 ‏B (1 0.010)  998ln cw  916ln cw(1)  82ln cw(2)  ‏0.99 998(3.304)  916(3.186)  82(3.671) 77.2 2 که براي  توزيع است. معني دار 2 1 1 w(1) D (x  x1)c 2 2 (x  x1 ) 1 w(2) D (x  x2 )c (x  x2 ) Group1 Group2 آزمون معني داري تفاوت بين ميانگين هاي دو گروه زمانيکه تنها يک متغير مستقل داريم: ‏x1  x2 آزمون با توزيع tو n1+n2-2 درجه آزادي مي باشد. ‏s2w s2w ‏ ‏n1 n2 زمانيکه بيشتر از يک متغير مستقل داريم : ‏1 ‏t ‏nn 1 2 ‏T  ‏d 'cw d ‏n1  n2 2 ‏n1  n2  p  1 2 )T F( p, n1  n2  p  1 )p(n1  n2  2 که pتعداد متغيرهاي تمايز کننده است. نيکويي برازش تابع تمايز : hit rateدرصد مشاهداتي که درست دسته بندي شدند به کل مشاهدات. محاسبه )cutoff (tc همه مشاهدات با مقدار تابع تمايز t>tcبه يک گروه مربوط مي شوند و باقيمانده مشاهدات به گروه ديگر تخصيص مي يابند. ‏t1  t2 زمانيکه اندازه دو گروه برابر باشد: 2 ‏tc  نيکويي برازش مث تابع تمايز تابع بر اساسال قد دانش آموزان زن و مرد باشد. مي مردان به زنان 2 نسبت به 1 150دانش آموNز به صورت تصادفي نمونه گرفته شده است. از 100مرد (با ميانگين قد 70اينچ و انحراف استاندارد 3اينچ) و 50زن(با ميانگين 67اينچ و انحراف استاندارد 3اينچ)هستند. ‏Hit rate= (73+34)/150=71.3% ‏Hit rate men=73/89=82% ‏actual ‏men ‏women ‏all ‏men 73 27 100 ‏women 16 34 50 ‏all 89 61 150 ‏Hit rate women=34/61=55.7% ‏tc ‏Men ‏Women نيکويي برازش تابع تمايز زمانيکه اندازه گروهها برابر نيست: ‏nt 1 1  n2t2 ‏tc  ‏n1  n2 معادله فوق احتمال پذيرفتن misclassificationرا مينيمم مي کند. Hit rateبNNNه NاNندازNهN 74.7=112/150درNصد اNفزاNيNش مNييNNابد. ‏actual ‏men ‏women ‏all ‏men 79 21 100 ‏women 17 33 50 ‏all 96 54 150 معيار شانس نسبي در اين روش مشاهدات را بر اساس شانس در .گروهها قرار مي دهيم براي معيارmisses وhits توزيع مشترک :شانس نسبي all Group2 Group1 actual np np(1-p) np2 Group1 n(1-p) n(1-p)2 np(1-p) Group2 n n(1-p) np all Assign observation to group 1 with probability = p Assign observation to group 2 with probability = 1- p چگونه از تابع تمايز براي پيش بيني استفاده کنيم؟ به دليل گسسته بودن متغير وابسته هدف ما در پيش بيني classificationاست . فاکتورهاي تأثير گذار روي تصميم ما براي تخصيص يک خاص: گروه به مشاهده misclassification priorsطرح ما بکار بردن روش Bayesianبراي مسأله classification وصفي مي باشد .هزينه ( misclassificationيا سود classificationصحيح) را مشخص مي کنيم .بنابراين از اطالعات تابع تمايز براي به روز کردن priorsاستفاده مي کنيم. براي محاسبه پيش بيني از روشMahalanobis استفاده مي کنيم: 'x مشاهده نقطه احتمال ازگروه :1 ‏ ‏D12 1 2 ‏ ‏ exp ‏ ‏ ‏ ‏ 1 ‏ ‏P(x' group 1)  ‏ c 2 ‏ w ‏x ' مشاهده نقطه احتمال ازگروه :2 ‏ 2 2 ‏D 1 2 ‏ ‏ exp ‏ ‏ ‏ ‏ 1 ‏ ‏P(x' group 2)  ‏ c 2 ‏ w با استفاده از تئوري ،Bayesاطالعات تابع تمايز را ترکيب مي کنيم و براي مشاهده ،x احتمال اينکه از گروه 1باشد به صورت زير ‏q1P(x' group است1) : ‏q1P(x' group )1)  q2P(x' goup2 ) q1  (D12  D22 ‏ln   ‏0 2 ‏ q2  ‏P(group 1x')  ‏q1P(x' group )1 ‏q2 P(x' group )2 2 2 2 1 ) (D  D )(t1  t2 ‏ x'k  2 2 ‏ q1  ‏t  tc  ln  ‏ q2  اگر بخواهيم از هزينه classificationنيز استفاده کنيم: ) C(12هزينه دسته بندي کردن مشاهدات به گروه 1در حاليکه حقيقتا ً متعلق به گروه 2باشد. ‏ q1c(21)  ‏t  tc  ln ‏ ‏ q2c(12)  آناليز تمايز چندگانه روش ‏Fisher Y1 = 1اNگر مNشاهده Nاز گNNروه 1 NبNNاشد و 0در غير اNيNنصNNورNت Y2= 1اNگر مNشاهده Nاز گNNروNه 2 NبNNاشد و 0در غير اNيNنصNNورNت صورت چندگانه به تمايز تابع هدف فيشر است. گروه 3 حتما ً از تابع= y2 براي yو0 مشاهده اي با 1=0 زير است: ‏k' Ak ‏Find k to max   ‏k'Wk ‏1 ‏W Ak k Group 2 Group 3 Group 1 آناليز تمايز چندگانه روش ‏Mahalanobis فاصله هر مشاهده را از مرکز هر گروه پيدا مي کنيم و به گروهي اختصاص مي دهيم که کمترين فاصله را داشته باشد. ‏1 ‏w 2 ‏g ) D (x  xg )c (x  xg بنابراين مشاهده xرا به گروه نزديکتر (گروهي که Dg2آن مينيمم باشد) تخصيص مي دهيم. آناليز تمايز چندگانه ارتباط با همبستگي متعارف مقادير ويژه از آناليز تمايز چندگانه: )( MDA ‏ T )( MDA =W A 1 ‏ -1 ) ‏1(MDA)  1,,T(MDA 1 مقاديرويژه بنابراين -1 =) ،W (A+Wمي باشد . که معکوس () )W -1(A+Wبه صورت زير مي باشد: 1 ), , (MDA ‏1 ‏T ‏1 1 )( MDA 1 ‏ آناليز تمايز چندگانه ارتباط با همبستگي متعارف از همبستگي متعارف داشتيم: ) ) (1 (jCC ‏j ‏W )( A W ‏ ارتباط بين مقادير ويژه از همبستگي متعارف و مقادير ويژه از آناليز تمايز چندگانه: ‏cc ‏j ‏ 1 cc ‏j )( MDA ‏j 1 )(CC ‏ ( 1 ‏ ‏ ) OR ‏j )( MDA (1  j ) آزمون آماري بر پايه 1 ‏  )( MDA ) ‏j (1  j ) )(CC ‏ (1  j ‏j مسأله نمونه فروش خانه در سه منطقه Menlo Park ,Los Altos ,Palo Alt نمونه کل شامل 35خانه 9خانه در 13خانه در Menlo Park 13خانه درPalo Alto ‏Los Altos -1قيمت خانه (بر حسب هزار دالر) -2تعداد اتاقهاي خواب -3مساحت خانه (بر حسب هزارفوت مربع) مسأله نمونه چون 3گروه داريم تعداد توابع تمايز 2 تا است ‏  1.0352 1 ‏1 ‏ W A ‏ 2 0.1552 با نگاه کردن به ارزشهاي نسبي از دو مقدار ويژه ،مي بينيم که تابع تمايز اول تمايز بهتري براي مشاهدات بين گروهي نسبت به دومي است. جدول ضرايب تابع تمايز را براي هر کدام از دو تابع تمايز 1 2 ‏price 0.6181 0.399 ‏Bedrooms 0.2660 0.8403 ‏Lots size 0.9746 - 0.1585 مسأله نمونه 2 LA second discriminant function MP PA 1 0 -1 -2 -2 -1 0 First discriminant function 1 2 3

62,000 تومان