شبکه های عصبی برای طبقه بندی یک مرور
اسلاید 1: ارائه دهندگان: سینا طباخی شاهین صلواتی موضوع : شبکههای عصبی برای طبقهبندی، یک مرورNeural Networks for Classification : A Surveyاستاد : دکتر شیخ اسماعیلیاردیبهشت 91
اسلاید 2: فهرستمقدمه1تئوری طبقه بندی بیزین2شبکه های عصبی و طبقه بندی کننده های مرسوم34567کاهش خطای پیش بینیکلاس بندی تجمیعیانتخاب متغیرهای ویژگیجمعبندی2 / 33
اسلاید 3: مقدمهطبقه بندی یکی از پرتکرارترین وظایف ایجاد تصمیم در فعالیت های انسان است بسیاری مسائل می توانند به عنوان مسائل طبقه بندی تلقی شود. مثلاپیش بینی ورشکستگیدادن وامتشخیص پزشکی تشخیص کاراکتر دست خطتشخیص گفتارطبقه بندی کننده های آماری مبتنی بر تئوری تصمیم بیزین هستند3 / 33
اسلاید 4: مقدمه (ادامه)شبکه های عصبی یک ابزار مهم برای طبقه بندی محسوب می شودمزیت های شبکه های عصبیروش های خود تطبیقی برای مبنای داده هستندمی تواند هر تابعی را با دقت دلخواه تخمین بزندمدل های غیر خطی هستنددر تخمین احتمالات عقبی (posterior probability) توانا هستندتعدادی از مسائل با توجه به شبکه های عصبی هنوز به طور موفقیت آمیزی حل نشده اند4 / 33
اسلاید 5: تئوری طبقه بندی بیزینتئوری تصمیم بیزین پایه روش های آماری استمسئله طبقه بندی به M-گروه را در نظر بگیرید:x : بردار صفت با d بعدw : متغییر عضویت𝑝( 𝑤 𝑗 ) : احتمال عقبی گروه j𝑓( 𝑥|𝑤 𝑗 ) : تابع چگالی احتمال 𝑝 𝑤 𝑗 𝑥 = 𝑓 𝑥| 𝑤 𝑗 𝑝( 𝑤 𝑗 ) 𝑓(𝑥) 𝑓 𝑥 = 𝑗=1 𝑀 𝑓 𝑥| 𝑤 𝑗 𝑝( 𝑤 𝑗 ) 5 / 33
اسلاید 6: تئوری طبقه بندی بیزین(ادامه)فرض کنید داده x مشاهده شده است. احتمال خطای طبقه بندی به صورت زیر است :𝑝 𝐸𝑟𝑟𝑜𝑟 𝑥 = 𝑖≠𝑗 𝑝 𝑤 𝑖 𝑥 =1−𝑝 𝑤 𝑗 𝑥 𝑖𝑓 𝑤𝑒 𝑑𝑒𝑐𝑖𝑑𝑒 𝑤 𝑗 𝐷𝑒𝑐𝑖𝑑𝑒 𝑤 𝑘 𝑓𝑜𝑟 𝑥 𝑖𝑓 𝑝 𝑤 𝑘 𝑥)= max 𝑖=1,2,… , 𝑀 𝑝 𝑤 𝑖 𝑥) اگر هدف به حداقل رساندن نرخ طبقه بندی اشتباه باشد , پس از قانون طبقه بندی بیزین به طور گسترده به صورت زیر استفاده می کنیم :توابع جدا کننده خطی و درجه دوم میتوانند با اتخاذ توزیع نرمال چند متغیره برای چگالی شرطی 𝑓 𝑥 𝑤 𝑗 ) از بردار صفت x نتیجه شوند6 / 33
اسلاید 7: تئوری طبقه بندی بیزین(ادامه)دو مشکل در پذیرفتن قانون تصمیم بیز ساده :در اکثر مواقع تابع چگالی معلوم نیستبه اثر خطای طبقه بندی اشتباه بی تفاوت هستیمراهکار : نسبت دادن هزینه به خطای طبقه بندی اشتباه c ij X : هزینه طبقه بندی اشتباه x به گروه i, در صورتی که در اصل متعلق به گروه j باشدهزینه مورد انتظار به صورت زیر است : 𝑐 𝑖 𝑥 = 𝑗=1 𝑀 𝑐 𝑖𝑗 𝑥 𝑝 𝑤 𝑗 𝑥) , i=1,2, …, Mقانون طبقه بندی بیزین به طوری کلی به صورت زیر است :𝐷𝑒𝑐𝑖𝑑𝑒 𝑤 𝑘 𝑓𝑜𝑟 𝑥 𝑖𝑓 𝑐 𝑘 𝑥 = min 𝑖=1,2, …, 𝑀 𝑐 𝑖 (𝑥) 7 / 33
اسلاید 8: تخمین احتمال عقبی از طریق شبکه های عصبیدر مسائل طبقه بندی می توان با استفاده از شبکه های عصبی,تخمینی از احتمالات عقبی بدست آوردیک شبکه عصبی برای مسئله طبقه بندی می تواند به صورت یک تابع نگاشت دیده شود : 𝑭 : 𝑹 𝒅 → 𝑹 𝑴 از تئوری تخمین کمترین مربعات در آمار, تابع نگاشت 𝐹:𝑥→𝑦, به صورت زیر است :𝑭 𝒙 =𝑬[𝒚|𝒙]j-امین عنصر F(x) به صورت زیر تعین می شود : 𝑭 𝒋 𝒙 =𝑬 𝒚 𝒋 𝒙 =𝟏.𝒑 𝒚 𝒋 =𝟏 𝒙)+𝟎 . 𝑷 𝒚 𝒋 =𝟎 𝒙)=𝒑 𝒚 𝒋 =𝟏 𝒙)=𝒑( 𝒘 𝒋 |𝒙)می توان انواع دیگر تابع خطا را بکار برد.مثل: تابع آنتروپی تقابلی8 / 33
اسلاید 9: شبکه های عصبی و طبقه بندی کننده های مرسومطبقه کننده های آماری مبتنی بر تئوری تصمیم بیزین هستند, که احتمالات عقبی نقش اصلی را بازی میکندکد کردن مختلف اعضای خروجی :مسئله طبقه بندی دو-گروه اگر شی متعلق به کلاس 1 باشد, خروجی به صورت 1اگر شی متعلق به کلاس 2 باشد, خروجی به صورت 1-تابع جدا کننده زیر را داریم :𝑔 𝑥 =𝑝 𝑤 1 𝑥)−𝑝 𝑤 2 𝑥)9 / 33
اسلاید 10: شبکه های عصبی و طبقه بندی کننده های مرسوم(ادامه)Raudys ثابت کرد با کنترل هدفمند پیچیدگی پرسپترون تک لایه, مرزهای تصمیم طبقه بندی کننده, برابر یا نزدیک 7 طبقه بندی کننده آماری زیر هستند :طبقه بندی کننده فاصله Enclideanتابع جدا کننده خطی Fisherتابع جدا کننده خطی Fisher با شبه وارونه سازی ماتریس کواریانستابع جدا کننده خطی Fisher تعمیم بافتهمنظم کردن تحلیل جدا کننده خطیطبقه بندی کننده حداقل خطای تجربیطبقه بندی کننده حداکثر اختلاف10 / 33
اسلاید 11: شبکه های عصبی و طبقه بندی کننده های مرسوم(ادامه)رگرسیون دو حالته (Logistic Regression) ابزار طبقه بندی کننده مهم دیگر است, که در تشخیص پزشکی و مطالعات امراض همه گیر استفاده می شود.غالبا بر تحلیل جدا کننده ترجیح داده می شودنتیجه آزمایش جامع Minchiکه در مطالعه مقایسه ای پروژه StatLog بود و 3 روش طبقه بندی (شبکه های عصبی , طبقه بندی کننده های آماری و یادگیری ماشین) مقایسه شده بود, نشان داد که یک طبقه بندی کننده خوب برای همه مجموعه داده ها وجود ندارد11 / 33
اسلاید 12: یادگیری و تعمیمیادگیری : توانایی در تخمین رفتار با توجه به داده آموزشیتعمیم : توانایی پیش بینی خوب, فراتر از داده های آموزشیتعدادی از موضوعات طراحی شبکه کاربردی وابسته به یادگیری و تعمیم :اندازه شبکه اندازه نمونهانتخاب مدلانتخاب ویژگیUnderfitting : مدل ساده و غیرقابل انعطاف. مثل طبقه بندی کننده خطیOverFitting : مدل پیچیده و انعطاف پذیر. مثل شبکه های عصبیدو پدیده بالا از طریق تجزیه Bias-plus-Variance تحلیل میشود12 / 33
اسلاید 13: ترکیب بایاس و واریانس از خطای پیش بینیبایاس : اختلاف بین خروجی تابع اصلی با تابعی که تخمین زده شده استواریانس : حساسیت تابع تخمینی به مجموعه داده های آموزشیمثالی از بایاس و واریانس13 / 33
اسلاید 14: ترکیب بایاس و واریانس از خطای پیش بینی(ادامه)یک مسئله طبقه بندی کننده دو-گروهی را در نظر بگیرید که متغییر خروجی y, باینری است. داریم :𝒚=𝑭 𝒙 +𝜺 با توجه به فرمول های قبلی , انتظار شرطی y با توجه به x, به صورت زیر است :𝑭 𝒙 =𝑬 𝒚 𝒙 =𝒑 𝒘 𝟏 𝒙 یک مجموعه داده آموزشی 𝐷 𝑁 داریمهدف : پیدا کردن یک تخمین از F(x)(مثلا 𝑓(𝑥; 𝐷 𝑁 )) , که مجموع خطای تخمینی حداقل شود.پس داریم :تغییر دادن مجموعه داده یا اندازه نمونه ها , می تواند خطای تخمین را تغییر دهد𝑀𝑆𝐸=𝐸 𝑦−𝑓 𝑥; 𝐷 𝑁 2 =𝐸 𝑦−𝐹 𝑥 2 + (𝑓 𝑥; 𝐷 𝑁 −𝐹(𝑥)) 2 14 / 33
اسلاید 15: ترکیب بایاس و واریانس از خطای پیش بینی(ادامه)حالت مطلوب این است که بایاس و واریانس کم باشند اما به طور همزمان غیر ممکن استیک مدل خوب بایستی به خوبی بین بایاس مدل و واریانس مدل تعادل برقرار کندکارهای انجام گرفته در این حوزه :Geman : کار بروی trade off بین بایاس و واریانس تحت تابع هدف دو جمله ایWolpert: توسعه مفهوم بایاس-به علاوه- واریانس در مفهوم بیزینDietterich and Kong: نسخه متفاوتی از بایاس-واریانس برای توابع 0-1 از مسائل طبقه بندی 15 / 33
اسلاید 16: کاهش خطای پیش بینییک مشکل رایج Overfitting است که ناشی از واریانس بالاست در تعمیم است.Dietterich نشان داد که واریانس فاکتور مهمتری از Bias در کارایی پیشبینی است.Breiman نشان داد روشهای کلاسبندی شبکه عصبی جزء روشهای ناپایدار هستند:به این معنی که تغییر کوچک در دادهی آموزشی سبب تغییر بزرگ در نتیجه تست خواهد شد.بنابراین بیشترین تلاش در زمینه کاهش Overfitting است.16 / 33
اسلاید 17: تعمیم و کلاسبندییک نتیجه بسیار مهم از Dietterich این بودکه الگوریتمهای بهینه در مرحله آموزش نتایج مناسبی را بر روی داده تست ندارند.17 / 33
اسلاید 18: کاهش واریانسبرخی از روشهای ارائه شده برای کاهش واریانس:Cross Validationآموزش با تخصیص پنالتیWeight decayهرس نود18 / 33
اسلاید 19: کلاسبندهای تجمیعی (Ensemble Classifier)یک روش بسیار پرطرفدار در کاهش خطای تعمیمتولید بر اساس ترکیب چندین Classifierایده کلی: بر اساس میانگینگیری و رایگیری مزیت: سبب کاهش واریانسبه صورت تئوری اثبات شده است، که کارایی این روش بدتر از هر کدام از Classifierهای آن نیست، در صورتی که: پیشبینی هر کدام از این واحدها Unbiased و Uncorrelated باشند.19 / 33
اسلاید 20: تولید کلاسبند تجمیعی راهکارهای زیر برای تولید این دسته ارائه شده است:معماری چندگانه شبکهیک معماری و آموزش با الگوریتمهای مختلفوزنهای شروع تصادفی مختلفClassifier های مختلفآموزش اجزاء شبکه مختلف توسط دادههای متفاوت همانند روشهای باز نمونه گیری داده Resampling))20 / 33
اسلاید 21: روشهای ترکیب Classifierاز جمله این روشها:پرطرفدارترین ایده؛ میانگینگیری ساده از خروجی Classifier مختلفو میانگینگیری وزندارروشهای غیرخطی:belief-basedRank-based informationVoting SchemaOrder statistics21 / 33
اسلاید 22: توانایی کاهش خطا در مدل تجمیعیدر این مدلها نیز هدف کاهش واریانس مقدم بر هدف کاهش بایاس است.از آنجا که ما به دنبال Classifierهای متناقضتر هستیم، پس این مدلها میتوانند بایاس بسیار بالایی داشته باشند، اما:میانگینگیری سبب تعدیل بایاس و بسیار مهم تر از آن موجب کاهش حساسیت نسبت به دادهی جدید خواهد شد.22 / 33
اسلاید 23: (Uncorrelation)ناهمبستگی )اثبات شد که همبستگی و همخوانی Classifier ها برای مدل تجمیعی مضر است.آقای Sharkey به بیان نیازها و مزایای تنوع این Classifierها پرداخت.و آقای Rogova نشان داد که ترکیب Classifierهای بهتر لزوما کارایی بهتری نخواهد داشت...پس هرچه جداکنندهها مستقلتر و متناقضتر؛ کارایی مدل بهتر...23 / 33
اسلاید 24: راهکارهای کاهش ارتباطروش اول ساخت مدل با استفاده از متغیرهای ویژگی متفاوت برای هر جداکننده است. (Feature Variable) اثبات شده است که این روش استقلال بهتری را نسبت به روش استفاده از معماریهای مختلف با متغیرهای ویژگی یکسان، سبب میشود.روش دیگر آموزش بر روی مجموعه دادههای مختلف است.برای این منظور تکنیکهای نمونهگیری آماری همانند bootstrapping برای تولید چندین نمونه دادهای از داده اصلی استفاده میشود. همانند:BaggingAcring Breiman نشان داد که این دو روش هم بایاس و هم واریانس را کاهش میدهند اما در کاهش واریانس تواناترند.24 / 33
اسلاید 25: چالشهای مدل تجمیعیدر راه تولید یک مدل تجمیعی مشکلات شامل موارد زیر است:این که تحت چه شرایطی استفاده از این مدل به صرفه است؟انتخاب هر کدام از Classifierهاروشی عمومی و بهینه برای ترکیب Classifierهاو اندازهی مدل 25 / 33
اسلاید 26: انتخاب متغیرهای ویژگیهدف این پروسه یافتن کوچکترین زیرمجموعه از دادهی اصلی در حالی که هنوز کارایی پیشبینی بر اساس این مجموعه رضایتبخش است.دلیل این پردازش که منجر به محدود کردن تعداد ورودیها خواهد شد:کاهش محاسباتبهبود پیشبینی با کاهش فضای جستجوایده کلی:کارایی کلاسبندی با استفاده از ویژگیهای مستقل از لحاظ آماری افزایش خواهد یافت.26 / 33
اسلاید 27: مقیاسهای آگاهانه با هدف تخمین اهمیت نسبی یا سهم ویژگیهای ورودی بر متغیرهای خروجیدر ابتدا ارائه سادهترین روشها با دو ویژگی:نشاندهندهی تاثیر متغیرهای ورودی بر خروجی محدودیت آشکار، عدم توجه به تاثیر نودهای مخفی27 / 33
اسلاید 28: مقیاسهای کاراترایده کلی: بررسی تاثیر ورودیها و نودهای لایههای مخفی بر روی خروجیمقیاس شبه وزن: مجموع حاصلضرب اوزان نودهای ورودی در نودهای مخفی و اوزان نودهای مخفی متناظر در نود خروجی.ارائه مقیاس بسیار مهم توسط گارسون:تجزیه لایه مخفی به اجزاء وابسته به هر نود ورودی و سپس درصد تمامی اوزان نودهای مخفی قابل نسبت دادن به یک نود ورودی خاص.این روش پرطرفدار، مورد توجه سایر محققان قرار گرفت28 / 33
اسلاید 29: مقیاسهای کاراتر(ادامه)مقیاس بعدی توسط آقای Sung با استفاده ازسه مفهومآنالیزحساسیت، منحنی فازی،و تغییر میانگین مربعات خطا با هدف رتبهبندی اهمیت ویژگیهای ورودی 29 / 33
اسلاید 30: جستجو در فضای ویژگیهامیدانیم جستجوی کامل در فضای ویژگیها امکان پذیر نیست، به همین دلیل استفاده از جستجوهای آگاهانه همانند:Backward eliminationForward Selectionبه عنوان مثال یکی از این روشها شامل مراحل زیر بود:شروع با مجموعه کامل از ویژگیها برای هر صفت متغیرها (attribute)، صحت شبکه ارزیابی میشود به این صورت که تمام اوزان وابسته به آن صفر خواهد شد.در انتها حذف متغیری که کمترین کاهش صحت را داشته باشد.30 / 33
اسلاید 31: مشکلات روشهای انتخاب ویژگیمتاسفانه برای هیچکدام از روشهای فوق تستهای دقیق و سخت آماری وجود ندارد بنابراین در عمل ممکن است نتایج عملی با آنچه گفته شد سازگار نباشد!!!بیشترین این روشها تنها در شرایط خاصی به خوبی جواب میدهند.بنابراین نیاز به ارائهی روشهای سیستماتیک و عمومیتر در انتخاب ویژگیها31 / 33
اسلاید 32: جمعبندیاز جمله مشکلات این کار شامل:تعداد مراجع بسیار بالاعدم مقایسه راهکارهای متفاوتدر برخی مواقع مسائل با جزئیات و برخی بسیار کلی بررسی شدهاند.32 / 33
اسلاید 33: با تشکر از توجه شما
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.