آنالیز تمایز
اسلاید 1: به نام خدا درس داده کاوي موضوع: آناليز تمايزاستاد راهنما: دکتر جمال شهرابيارائه دهنده: علي يوسف الهيپاييز 86
اسلاید 2: Data Miningهدف آناليز تمايز استفاده اطلاعات حاصله از متغيرهاي مستقل براي دستيابي به واضحترين تفکيک يا تمايز بين يا درون گروهها است. آناليز تمايز
اسلاید 3: آناليز تمايز دوگروهه و رگرسيون چندگانه کاربردها
اسلاید 4: حل مسائل آناليز تمايز دوگروهه :1- روش Fisher 2- روش Mahalanobis
اسلاید 5: روش Fisher روش Fisher بر پايه درک امتياز تمايز مي باشد. نظر او پيدا کردن ترکيب خطي از متغيرهاي مستقل x است که تفاوت را ميان گروهها ماکزيمم کند.
اسلاید 6: تابع فيشر به صورت t=Xk است. k: ترکيب خطي t: تابع تمايز فيشر انتخاب ترکيب خطي k را به صورت ماکزيمم کردن نسبت مجموع مربعات بين گروهي به مجموع مربعات درون گروهي از تابع t پيشنهاد داده است. روش Fisher
اسلاید 7: نسبت فيشر به صورت زير مي باشد: :dبردار تفاوت بين ميانگين هاي دو گروهCw: ماتريس کوواريانس درون گروهي آميخته (12.1) تابع هدف در معادله (12.1) با انتخاب k به صورت زير ماکزيمم مي شود.(12.2) روش Fisher
اسلاید 8: روش Fisherزمانيکه هيچ همبستگي درون گروهي بين X1 و X2 وجود ندارد چه اتفاقي مي افتد؟ Cw=Cw-1=I k=d پس پيشنهاد مي شود که محور تابع تمايز در راستاي خطي باشد که دو نقطه ميانگين دو گروه را به هم وصل کند.
اسلاید 9: روش FisherGroup 1Group 2
اسلاید 10: روش Fisherاگر X1 و X2 وابسته باشند چه اتفاقي مي افتد؟ Group 1Group 2
اسلاید 11: روش Fisherاثباتt=Xk مجموع مربعات درون گروهي (SSw): داشتيم:بنابراين داريم:
اسلاید 12: روش Fisherاثباتمجموع مربعات بين گروهي(SSA): بعد از جايگذاري و ساده سازي داريم:در نتيجه:
اسلاید 13: روش Fisherاثباتهدف انتخاب K اي است که عبارت زير را ماکزيمم کند.با مشتق گرفتن از L بر حسب k و برابر صفر قرار دادن آن k را بدست مي آوريم:
اسلاید 14: روش Fisherارتباط با رگرسيونتابع هدف فيشر MAXMINMINMINوMINMAXمعادل است با
اسلاید 15: ارتباط با رگرسيونروش Fisherداشتيم:اگر مشاهده i در گروه 1 باشد اگر مشاهده i در گروه 2 باشد X’y=d X’X CT ,
اسلاید 16: روش MahalanobisMahalanobis پيشنهاد مي دهد مکان هندسي نقاطي را پيدا کنيم که داراي فاصله برابر از ميانگين دو گروه هستند. (3-12)(4-12)D12 = D22
اسلاید 17: روش Mahalanobisاگر هيچ همبستگي بين متغيرهاي X1 و X2 نباشد :Group 21Group 1
اسلاید 18: روش Mahalanobisزمانيکه همبستگي مثبتي بين X1 و X2 برقرار باشد:Group 2Group 1
اسلاید 19: روش MahalanobisاثباتD12=D22 با جايگذاري و ساده سازي داريم:
اسلاید 20: روش Mahalanobisروش Fisher?
اسلاید 21: مثالاز ميان 50000 مشتري شرکت به 1000 مشتري به طور تصادفي نام کتاب را پست مي کند. 83 نفر از آنها کتاب را مي خرند.شرکت تمايل به استفاده از تابع تمايز دارد تا درک بهتري از فاکتورهاي مجزاکننده خريداران از غير خريداران را داشته باشد. در اين مثال، شرکت از تابع تمايز براي امتياز دادن به مشتريان باقيمانده مي تواند استفاده کند. در اين مثال روي دو متغير متمرکز مي شويم:1- ماههايي که از آخرين خريد کتاب از آن شرکت گذشته است. 2- تعداد کتابهاي هنري خريداري شده.
اسلاید 22: 00403021001243 No buyers+ Buyers Months since last purchaseNumber of art books purchase
اسلاید 23: مثال1- خريداران به داشتن ميانگين پايين تري از ماههاي آخرين خريد (9.4 ) و تعداد بالاتري از کتابهاي هنري خريداري شده(1.0) تمايل دارند. 2- غير خريداران به ميانگين بالاتري از ماههاي آخرين خريد(12.7) و ميانگين کمتري از تعداد کتابهاي هنري خريداري شده(0.3) تمايل دارند.
اسلاید 24: آزمون برابري ماتريسهاي کوواريانسBox (1949,1950) حداقل يکي با بقيه متفاوت باشد 0 : ماتريسVar/Cov گروه g G : تعداد گروهها Cw(g) ماتريس کوواريانس گــروه g و Cw ماتريس کوواريانس آميخته بين گروهي و ng تعداد مشاهدات گروه g مي باشند. آماره B لگــاريتم گرفته آماره M مي باشد.
اسلاید 25: آزمون برابري ماتريسهاي کوواريانسBox (1949,1950)
اسلاید 26: آزمون برابري ماتريسهاي کوواريانسمثالمثال books by mail را در اينجا تست مي کنيم: P=2, G=2 , n1=917 , n2=83 که براي توزيع معني دار است.
اسلاید 27:
اسلاید 28: Group2Group1
اسلاید 29: آزمون معني داري تفاوت بين ميانگين هاي دو گروه آزمون با توزيع t و 2-n1+n2 درجه آزادي مي باشد. زمانيکه تنها يک متغير مستقل داريم:زمانيکه بيشتر از يک متغير مستقل داريم :که p تعداد متغيرهاي تمايز کننده است.
اسلاید 30: نيکويي برازش تابع تمايز hit rate : درصد مشاهداتي که درست دسته بندي شدند به کل مشاهدات. محاسبه cutoff (tc)همه مشاهدات با مقدار تابع تمايز t>tc به يک گروه مربوط مي شوند و باقيمانده مشاهدات به گروه ديگر تخصيص مي يابند. زمانيکه اندازه دو گروه برابر باشد:
اسلاید 31: نيکويي برازش تابع تمايز مثالتابع بر اساس قد دانش آموزان زن و مرد مي باشد. نسبت مردان به زنان 2 به 1 از 150دانش آموز به صورت تصادفي نمونه گرفته شده است. 100 مرد (با ميانگين قد 70 اينچ و انحراف استاندارد 3 اينچ) و 50 زن(با ميانگين 67 اينچ و انحراف استاندارد 3 اينچ)هستند. Hit rate= (73+34)/150=71.3% Hit rate men=73/89=82%Hit rate women=34/61=55.7%MenWomentc
اسلاید 32: نيکويي برازش تابع تمايز زمانيکه اندازه گروهها برابر نيست: معادله فوق احتمال پذيرفتن misclassification را مينيمم مي کند. Hit rate به اندازه 112/150=74.7 درصد افزايش مي يابد.
اسلاید 33: معيار شانس نسبيدر اين روش مشاهدات را بر اساس شانس در گروهها قرار مي دهيم. توزيع مشترک hits و misses براي معيار شانس نسبي:Assign observation to group 1 with probability = pAssign observation to group 2 with probability = 1- p
اسلاید 34: چگونه از تابع تمايز براي پيش بيني استفاده کنيم؟ به دليل گسسته بودن متغير وابسته هدف ما در پيش بينيclassification است .فاکتورهاي تأثير گذار روي تصميم ما براي تخصيص يک مشاهده به گروه خاص:- misclassification - priors طرح ما بکار بردن روش Bayesian براي مسأله classification وصفي مي باشد. هزينه misclassification (يا سود classification صحيح) را مشخص مي کنيم. بنابراين از اطلاعات تابع تمايز براي به روز کردن priors استفاده مي کنيم.
اسلاید 35: براي محاسبه پيش بيني از روشMahalanobis استفاده مي کنيم: احتمال مشاهده نقطه ازگروه 1: احتمال مشاهده نقطه ازگروه 2:
اسلاید 36: با استفاده از تئوري Bayes، اطلاعات تابع تمايز را ترکيب مي کنيم و براي مشاهده x، احتمال اينکه از گروه 1 باشد به صورت زير است:
اسلاید 37: اگر بخواهيم از هزينه classification نيز استفاده کنيم:هزينه دسته بندي کردن مشاهدات به گروه 1 در حاليکه حقيقتاً متعلق به گروه 2 باشد.
اسلاید 38: آناليز تمايز چندگانه Y1 = 1 اگر مشاهده از گروه 1 باشد و 0 در غير اين صورت Y2= 1 اگر مشاهده از گروه 2 باشد و 0 در غير اين صورت مشاهده اي با 0=y1 و0= y2حتماً از گروه 3 است.روش Fisherتابع هدف فيشر براي تابع تمايز چندگانه به صورت زير است:
اسلاید 39: Group 1Group 2Group 3
اسلاید 40: آناليز تمايز چندگانه روش Mahalanobis فاصله هر مشاهده را از مرکز هر گروه پيدا مي کنيم و به گروهي اختصاص مي دهيم که کمترين فاصله را داشته باشد. بنابراين مشاهده x را به گروه نزديکتر (گروهي که Dg2 آن مينيمم باشد) تخصيص مي دهيم.
اسلاید 41: آناليز تمايز چندگانه ارتباط با همبستگي متعارفمقادير ويژه از آناليز تمايز چندگانه: W-1A =بنابراين مقادير ويژه =W-1(A+W)، مي باشد .که معکوس (W -1(A+W)) به صورت زير مي باشد:
اسلاید 42: آناليز تمايز چندگانه ارتباط با همبستگي متعارفاز همبستگي متعارف داشتيم: ارتباط بين مقادير ويژه از همبستگي متعارف و مقادير ويژه از آناليز تمايز چندگانه: آزمون آماري بر پايه OR
اسلاید 43: مسأله نمونه فروش خانه در سه منطقه Menlo Park ,Los Altos ,Palo Alt نمونه کل شامل 35 خانه 9 خانه در Los Altos 13خانه در Menlo Park 13خانه درPalo Alto1- قيمت خانه (بر حسب هزار دلار)2- تعداد اتاقهاي خواب3- مساحت خانه (بر حسب هزارفوت مربع)
اسلاید 44: مسأله نمونه چون 3 گروه داريم تعداد توابع تمايز 2 تا است با نگاه کردن به ارزشهاي نسبي از دو مقدار ويژه، مي بينيم که تابع تمايز اول تمايز بهتري براي مشاهدات بين گروهي نسبت به دومي است. جدول ضرايب تابع تمايز را براي هر کدام از دو تابع تمايز
اسلاید 45: مسأله نمونه
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.