صفحه 1:
استاد راهنما: دکتر جمال شهرابي
ارائه دهنده: علي يوسف الهي
صفحه 2:
هدف آنالیز تمایز استفاده اطلاعات
حاصله از متغيرهاي مستقل براي
دستيابي به واضحترین تفکیک یا
تمایز بین يا درون گروهها است.
صفحه 3:
صفحه 4:
صفحه 5:
نظر او پیدا کردن ترکیب خطي از
متغيرهاي مستقل + است که تفاوت را
میان گروهها ماکزیمم کند.
صفحه 6:
صفحه 7:
شرب تفاوت بين ميانكين هاي
دو
toy, ی
وله )12.1(
١ انتحاب ١ به صورت ريو
ke Ci val 000 ماكزيمم مي شود.
صفحه 8:
تمایز در are ee stats
نقطه میا ن دو گروه رابه هم وصل
کند.
صفحه 9:
555
3
صفحه 10:
“2 -,ك عمعل = ۳
صفحه 11:
صفحه 12:
2 از جايگذاري و ساده
a 4 ۹
‘i تست 7 2 سرا
SS, Saeco Cea 3
ل'00'ل» ركد
صفحه 13:
صفحه 14:
است با
صفحه 15:
(Pe AP | روش »ها
Ol Tee)
OO SC
صفحه 16:
7 led ٩ رت (4-12)
eto
صفحه 17:
صفحه 18:
صفحه 19:
۱ iene oe)
۱ ane ce.4)
6
صفحه 20:
روش
Mahalanobis
صفحه 21:
A Sp Sle ol» اد تمايز براي امتياز دادن به مشتريان
باقیمانده مي تواند استفاده کند
در اين مثال روي دو متغير تم رکز مب شویم:
1- ماههابي كه از آخرین خرید کتاب از آن شرکت گذشته است.
2- تعداد کتابهاي هنري خريداري شده.
صفحه 22:
Months since last purchase
صفحه 23:
صفحه 24:
صفحه 25:
Box (1949,1950)} 7 aged
نس 5
8-0- اه x 5 1 اب لح 2 (ca el
صفحه 26:
= 2
عاسط را در اینجا تست
صفحه 27:
صفحه 28:
صفحه 29:
زمانیکه بیشتر از یک متغیر
2 داریم : 00 say 0
اا
1 سدس
5 :
a 0
که م تعداد متقيرهاي Giles
کته ات
صفحه 30:
Cutoff (6) anne
همه مشاهدات با مقدار تابع نمایز ,۴<] به یک گروه
مربوط مي شوند و باقیمانده مشاهدات به گروه دیگر
ae
برابر باشد:
صفحه 31:
نیکویی برازش so}
حك
صفحه 32:
actual
7۳ ۳۳۳ re = م3 ۰ دوصد لفزلیش
۲ سب laps
صفحه 33:
کت
Group2
np2
np(1-p)
np
np(1-p)
n(1-p)?
n(1-p)
n(1-p)
Assign observation to group 1 with probability = p
Assign observation to group 2 with probability = 1- p
صفحه 34:
طرح ما بکار بردن روش 82۷65137 براي مسأله classification
وصفي مي باشد. هزینه 5۱2551621100 (يا سود
یاوعد صحیح) را مشخص مي کنیم. بنابراین از اطلاعات
تابع تمایز براي به روز کردن 0۲۱۵۲5 استفاده مي کنیم.
صفحه 35:
اسسال شاه اد
ازگروه 2:
P(x| group) = exp 1p
1
lav 2r
صفحه 36:
11
و
00178و اليه + (إناهرو انليج
gPx|group
g@P(x| group)
if |. 9 0
9 2
صفحه 37:
اگر بخواهیم از هزینه ۱252166۵1100 نیز
استفاده کنیم:
(112) هزینه دسته بندي کردن مشاهدات به گروه 1 در حالیکه
حقيقتاً م وه 2 باشد.
021
سل لو[ نمع
<x 8)
صفحه 38:
صفحه 39:
صفحه 40:
our X,) ( رات نو
Lula
براین مشاهد I
۳۳
تخصیص مي دهیم. ~
صفحه 41:
یراس معا —
«W"(A+W)=
که سكن 05-7 به صورت زیر مي
باشد:
1 1
TOT] +2۳۳
صفحه 42:
آزمون آماري(ر al
A =JJa- 46) لت
ا 116: ۳
صفحه 43:
9 خانه در ء۸۱:0 م۱
3خانه در ۴۵۲۲ ۱۸۵۴۱۰
Palo Alto,2 ail>13
1- قیمت خانه (بر حسب هزار دلار)
2- تعداد اتاقهاي خواب
3- مساحت خانه (بر حسب هزارفوت
مربع)
صفحه 44:
یر
با نگاه کردن به ارزشهاي نسبي از دو مقدار ویژه. مي
بینیم که تابع تمایز اول تمایز بهتري براي مشاهدات
بین گروهي نسبت به دومي است.
جدول ضرایب تابع
تمایز را براي هر
کدام از دو تابع
Gales
price
Bedrooms
Lots size
1
0.6181
0.2660
0.9746
2
0.399
0.8403
- 0.1585
صفحه 45:
2 4 oO qd 8 9
First discriminant function
به نام خدا
درس داده کاوي
موضوع :آناليز تمايز
استاد راهنما :دکتر جمال شهرابي
ارائه دهنده :علي يوسف الهي
پاييز 86
Data Mining
آناليز تمايز
هدف آناليز تمايز استفاده اطالعات
حاصله از متغيرهاي مستقل براي
دستيابي به واضحترين تفکيک يا
تمايز بين يا درون گروهها است.
آناليز تمايز دوگروهه و
رگرسيون چندگانه
کاربردها
حل مسائل آناليز تمايز
دوگروهه :
-1روش Fisher
-2روش Mahalanobis
روش Fisher
روش Fisherبر پايه درک امتياز تمايز مي
باشد.
نظر او پيدا کردن ترکيب خطي از
متغيرهاي مستقل xاست که تفاوت را
ميان گروهها ماکزيمم کند.
روش Fisher
تابع فيشر به صورت t=Xk
است.
:kتNNرکيبخطي
:tتابع تمايز
فيشر انتخاب ترکيب خطي kرا به صورت ماکزيمم
کردن نسبت مجموع مربعات بين گروهي به مجموع
مربعات درون گروهي از تابع tپيشنهاد داده است.
روش Fisher
نسبت فيشر به صورت
زير مي باشد:
()12.1
k 'dd 'k
k 'cw k
d:بردار تفاوت بين ميانگين هاي
دو گروه
:CwمNاتريNسکNNووارNيانNسدرون
NيختهN
NروهيآN
گN
معادله ()12.1
هدفم در
تابع
با انتخاب kبه صورت زير
ماکزيمم مي شود.
()12.2
1
w
k c d
روش Fisher
زمانيکه هيچ همبستگي درون گروهي بين X1و X2وجود
ندارد چه اتفاقي مي افتد؟
k=d
Cw=Cw-1=I
پس پيشنهاد مي شود که محور تابع
تمايز در راستاي خطي باشد که دو
نقطه ميانگين دو گروه را به هم وصل
کند.
Fisher روش
x1 (0,0)
x 2 (1,0)
1
w
c
1 0
0 1
Group 1
Group 2
Fisher روش
x1 (0,0)
x 2 (1,0)
وابسته باشند چهX2 وX1 اگر
اتفاقي مي افتد؟
Group 1
2 1
cw
1 2
2
1
3
3
1
cw 1 2
3 3
Group 2
k(
2
3
, 13)'
اثباتFisher روش
مجموع مربعات درون
:)SSw( گروهي
SSw (ti (1) t(1) ) (ti (2) t(2) )
2
2
i
i
t=Xk
داشت
:يم
بنابراين
:داريم
SSw k '[ (xi (1) x (1) )(xi (1) x (1) )' (xi (2) x (2) )(xi (2) x (2) )']k
i
i
SSw k 'cw k
اثباتFisher روش
2
مجموع مربعات بين
:)SSA(گروهي
2
SSA n1(t(1) t ) n2 (t(2) t )
بعد از جايگذاري و ساده
2
2
:داريم
سازي
n2
n1
SSA k ' n1
dd ' n2
dd ' k
(n1 n2
(n1 n2
SSA k 'dd 'k
در
:نتيجه
روش Fisherاثبات
هدف انتخاب Kاي است که عبارت
زير را ماکزيمم کند.
k 'dd 'k
L
k 'cw k
با مشتق گرفتن از Lبر حسب kو برابر
صفر قرار دادن آن kرا بدست مي آوريم:
1
w
k c d
ارتباط باFisher روش
رگرسيون
SSw
MIN
SSA
SSw
MIN 1
SSA
SSA
MAX
SST
SSA
MAX
SSw
تابع هدف
فيشر
SSw SSA SST
MIN
SSA SSA
و
معادل
است با
SST
MIN
SSA
روش Fisherارتباط با
رگرسيون
1
T
k c d
داشتيم
:
1
b ( X ' X ) X ' y
اگر مشاهده iدر
گروه 1باشد
اگر مشاهده iدر
گروه 2باشد
X’y=d
X’X CT
,
1
T
1
1
n1
yi
1
n2
b ( X ' X ) X ' y C d k
yi
Mahalanobis روش
يراNقاطNNينNکانهندسNهد مNيدNاد مNيشنهNN پMahalanobis
گيندوNيانNبر از مNراNN بNلهNاصNNيفN داراNهN نيم کNNيدا کNNپ
. هستندNروهNNگ
2
1
)3-12(
1
1
w
1
D (x x )c (x x )
2
2
1
w
D (x x 2)c (x x 2)
2
2
2
D1 = D
)4-12(
Mahalanobis روش
x1 (0,0)
x 2 (1,0)
اگر هيچ همبستگي بين متغيرهاي
: نباشدX2 وX1
Group 1
1 0
c
1
0 2
1
w
1
Group 2
x1 12
2
1
x
x 22
2
2
(x1 1)
x 22
2
x1 12
Mahalanobis روش
وX1 زمانيکه همبستگي مثبتي بين
: برقرار باشدX2
x1 (0,0)
x 2 (1,0)
c
1
w
2
3
2
1
2
3
1
3
Group 1
Group 2
1
3
2
3
2
2
2
2
2
x x 1x 2 x (x1 1) (x1 1)x 2 x or
2
3
x 2 2x1 1
2
3
2
3
2
3
2
3
اثباMahalanobis روش
ت
2
1
1
D (x x1) cw (x x1)
D12=D22
D22 (x x2)cw 1(x x2 )
1
w
1
w
(x x(1) )'c (x x(1) ) (x x(2) )'c (x x(2) ) 0
1
w
1
(1) w
1
(2) w
با جايگذاري و ساده
:سازي داريم
2xc d ' x c d x c d
x 'k
(t(1) t(2) )
2
روش
Fisher
?
روش
Mahalanobis
مثا
ل
از ميان 50000مشتري شرکت به 1000مشتري به طور تصادفي
نام کتاب را پست مي کند.
83نفر از آنها کتاب را
مي خرند.
شرکت تمايل به استفاده از تابع تمايز دارد تا درک بهتري از
فاکتورهاي مجزاکننده خريداران از غير خريداران را داشته باشد.
در اين مثال ،شرکت از تابع تمايز براي امتياز دادن به مشتريان
باقيمانده مي تواند استفاده کند.
در اين مثال روي دو متغير متمرکز مي شويم:
-1ماههايي که از آخرين خريد کتاب از آن شرکت گذشته است.
-2تعداد کتابهاي هنري خريداري شده.
4
No buyers
+ Buyers
Number of art books
purchase
3
2
1
0
0
10
02
Months since last purchase
03
04
مثا
ل
-1خريداران به داشتن ميانگين پايين تري از ماههاي آخرين
خريد ( ) 9.4و تعداد باالتري از کتابهاي هنري خريداري
شده( )1.0تمايل دارند.
-2غير خريداران به ميانگين باالتري از ماههاي آخرين
خريد( )12.7و ميانگين کمتري از تعداد کتابهاي هنري خريداري
شده( )0.3تمايل دارند.
)d (x2 x1) (9.4,1) (12.7,0.33) ( 3.3,0.67
1
w
')k c d ( 0.056,1.577
آزمون برابري
ماتريسهاي کوواريانس
)Box (1949,1950
H0 1 2 G
:ماتريسVar/Cov
g
گروه g
: Gتعداد گروهها
) Cw(gمNاتريNسکNNووارNيانNسگNNــروNهg N
و CwمNاتريNسکNNووارNيانNسآNمNيختهN
بNNNينگNNروNهيو ngتNNNعNداد مNشاهداNت
گNNروNه g NمNيبNNاشNند .آNمارNهB N
لNNگــارNيNتم گNNرفNته NآNمارNه M NمNي
بNNاشد.
حداقل يکي با بقيه
متفاوت باشد 0
2
)(ng 1
H1
) cw( g
M
g cw
Box (1949,1950)
B (1 c) (ng 1) ln cw
g
where
1
c
g (ng 1)
آزمون برابري
ماتريسهاي کوواريانس
g (ng 1)ln cw(g)
2
1
2p 3p 1
g (ng 1) 6( p 1)(G 1)
آزمون برابري
ماتريسهاي کوواريانس
مثا
ل
مثال books by mailرا در اينجا تست
مي کنيم:
P=2, G=2 , n1=917 , n2=83
B (1 0.010) 998ln cw 916ln cw(1) 82ln cw(2)
0.99 998(3.304) 916(3.186) 82(3.671) 77.2
2
که براي
توزيع
است.
معني دار
2
1
1
w(1)
D (x x1)c
2
2
(x x1 )
1
w(2)
D (x x2 )c
(x x2 )
Group1
Group2
آزمون معني داري تفاوت بين
ميانگين هاي دو گروه
زمانيکه تنها يک متغير
مستقل داريم:
x1 x2
آزمون با توزيع tو n1+n2-2
درجه آزادي مي باشد.
s2w s2w
n1 n2
زمانيکه بيشتر از يک متغير
مستقل داريم :
1
t
nn
1 2
T
d 'cw d
n1 n2
2
n1 n2 p 1 2
)T F( p, n1 n2 p 1
)p(n1 n2 2
که pتعداد متغيرهاي تمايز
کننده است.
نيکويي برازش
تابع تمايز
: hit rateدرصد مشاهداتي که درست دسته بندي
شدند به کل مشاهدات.
محاسبه )cutoff (tc
همه مشاهدات با مقدار تابع تمايز t>tcبه يک گروه
مربوط مي شوند و باقيمانده مشاهدات به گروه ديگر
تخصيص مي يابند.
t1 t2
زمانيکه اندازه دو گروه
برابر باشد:
2
tc
نيکويي
برازش مث
تابع تمايز
تابع بر اساسال
قد دانش آموزان زن و مرد
باشد.
مي
مردان به زنان 2
نسبت
به 1
150دانش آموNز به صورت تصادفي نمونه گرفته شده است.
از
100مرد (با ميانگين قد 70اينچ و انحراف استاندارد 3اينچ) و
50زن(با ميانگين 67اينچ و انحراف استاندارد 3اينچ)هستند.
Hit rate= (73+34)/150=71.3%
Hit rate men=73/89=82%
actual
men
women
all
men
73
27
100
women
16
34
50
all
89
61
150
Hit rate women=34/61=55.7%
tc
Men
Women
نيکويي برازش
تابع تمايز
زمانيکه اندازه گروهها
برابر نيست:
nt
1 1 n2t2
tc
n1 n2
معادله فوق احتمال پذيرفتن misclassificationرا
مينيمم مي کند.
Hit rateبNNNه NاNندازNهN
74.7=112/150درNصد اNفزاNيNش
مNييNNابد.
actual
men
women
all
men
79
21
100
women
17
33
50
all
96
54
150
معيار
شانس
نسبي
در اين روش مشاهدات را بر اساس شانس در
.گروهها قرار مي دهيم
براي معيارmisses وhits توزيع مشترک
:شانس نسبي
all
Group2
Group1
actual
np
np(1-p)
np2
Group1
n(1-p)
n(1-p)2
np(1-p)
Group2
n
n(1-p)
np
all
Assign observation to group 1 with probability = p
Assign observation to group 2 with probability = 1- p
چگونه از تابع تمايز براي پيش
بيني استفاده کنيم؟
به دليل گسسته بودن متغير وابسته هدف ما در پيش
بيني classificationاست .
فاکتورهاي تأثير گذار روي
تصميم ما براي تخصيص يک
خاص:
گروه
به
مشاهده
misclassification priorsطرح ما بکار بردن روش Bayesianبراي مسأله classification
وصفي مي باشد .هزينه ( misclassificationيا سود
classificationصحيح) را مشخص مي کنيم .بنابراين از اطالعات
تابع تمايز براي به روز کردن priorsاستفاده مي کنيم.
براي محاسبه پيش بيني از روشMahalanobis
استفاده مي کنيم:
'x
مشاهده نقطه
احتمال
ازگروه :1
D12
1
2
exp
1
P(x' group
1)
c 2
w
x
'
مشاهده نقطه
احتمال
ازگروه :2
2
2
D
1
2
exp
1
P(x' group
2)
c 2
w
با استفاده از تئوري ،Bayesاطالعات تابع
تمايز را ترکيب مي کنيم و براي مشاهده ،x
احتمال اينکه از گروه 1باشد به صورت زير
q1P(x' group
است1) :
q1P(x' group
)1) q2P(x' goup2
) q1 (D12 D22
ln
0
2
q2
P(group
1x')
q1P(x' group
)1
q2 P(x' group
)2
2
2
2
1
) (D D
)(t1 t2
x'k
2
2
q1
t tc ln
q2
اگر بخواهيم از هزينه classificationنيز
استفاده کنيم:
) C(12هزينه دسته بندي کردن مشاهدات به گروه 1در حاليکه
حقيقتا ً متعلق به گروه 2باشد.
q1c(21)
t tc ln
q2c(12)
آناليز تمايز
چندگانه
روش
Fisher
Y1 = 1اNگر مNشاهده Nاز گNNروه 1 NبNNاشد و 0در غير
اNيNنصNNورNت
Y2= 1اNگر مNشاهده Nاز گNNروNه 2 NبNNاشد و 0در غير
اNيNنصNNورNت
صورت
چندگانه به
تمايز
تابع هدف فيشر
است.
گروه 3
حتما ً از
تابع= y2
براي yو0
مشاهده اي با 1=0
زير است:
k' Ak
Find k to max
k'Wk
1
W Ak k
Group 2
Group 3
Group 1
آناليز تمايز
چندگانه
روش
Mahalanobis
فاصله هر مشاهده را از مرکز هر گروه
پيدا مي کنيم و به گروهي اختصاص مي
دهيم که کمترين فاصله را داشته باشد.
1
w
2
g
) D (x xg )c (x xg
بنابراين مشاهده xرا به گروه نزديکتر
(گروهي که Dg2آن مينيمم باشد)
تخصيص مي دهيم.
آناليز تمايز
چندگانه
ارتباط با
همبستگي
متعارف
مقادير ويژه از آناليز تمايز
چندگانه:
)( MDA
T
)( MDA
=W A 1
-1
)
1(MDA) 1,,T(MDA
1
مقاديرويژه
بنابراين
-1
=) ،W (A+Wمي باشد .
که معکوس () )W -1(A+Wبه صورت زير مي
باشد:
1
), , (MDA
1
T
1
1
)( MDA
1
آناليز تمايز
چندگانه
ارتباط با
همبستگي
متعارف
از همبستگي
متعارف داشتيم:
) ) (1 (jCC
j
W
)( A W
ارتباط بين مقادير ويژه از همبستگي متعارف و مقادير
ويژه از آناليز تمايز چندگانه:
cc
j
1 cc
j
)( MDA
j
1
)(CC
(
1
) OR
j
)( MDA
(1 j
)
آزمون آماري
بر پايه
1
)( MDA
)
j (1 j
)
)(CC
(1 j
j
مسأله
نمونه
فروش خانه در سه منطقه Menlo Park ,Los Altos
,Palo Alt
نمونه کل شامل 35خانه
9خانه در
13خانه در Menlo Park
13خانه درPalo Alto
Los Altos
-1قيمت خانه (بر حسب هزار دالر)
-2تعداد اتاقهاي خواب
-3مساحت خانه (بر حسب هزارفوت
مربع)
مسأله
نمونه
چون 3گروه داريم تعداد توابع تمايز 2
تا است
1.0352
1
1
W A
2 0.1552
با نگاه کردن به ارزشهاي نسبي از دو مقدار ويژه ،مي
بينيم که تابع تمايز اول تمايز بهتري براي مشاهدات
بين گروهي نسبت به دومي است.
جدول ضرايب تابع
تمايز را براي هر
کدام از دو تابع
تمايز
1
2
price
0.6181
0.399
Bedrooms
0.2660
0.8403
Lots size
0.9746
- 0.1585
مسأله
نمونه
2
LA
second discriminant function
MP
PA
1
0
-1
-2
-2
-1
0
First discriminant function
1
2
3