علوم پایه آمار

شبکه ‏های عصبی برای طبقه ‏بندی یک مرور

shabakehaye_asabi_baraye_tabagheh_bandiye_yek_morur

در نمایش آنلاین پاورپوینت، ممکن است بعضی علائم، اعداد و حتی فونت‌ها به خوبی نمایش داده نشود. این مشکل در فایل اصلی پاورپوینت وجود ندارد.






  • جزئیات
  • امتیاز و نظرات
  • متن پاورپوینت

امتیاز

درحال ارسال
امتیاز کاربر [0 رای]

نقد و بررسی ها

هیچ نظری برای این پاورپوینت نوشته نشده است.

اولین کسی باشید که نظری می نویسد “شبکه ‏های عصبی برای طبقه ‏بندی یک مرور”

شبکه ‏های عصبی برای طبقه ‏بندی یک مرور

اسلاید 1: ارائه دهندگان: سینا طباخی شاهین صلواتی موضوع : شبکه‏های عصبی برای طبقه‏بندی، یک مرورNeural Networks for Classification : A Surveyاستاد : دکتر شیخ اسماعیلیاردیبهشت 91

اسلاید 2: فهرستمقدمه1تئوری طبقه بندی بیزین2شبکه های عصبی و طبقه بندی کننده های مرسوم34567کاهش خطای پیش بینیکلاس بندی تجمیعیانتخاب متغیرهای ویژگیجمع‏بندی2 / 33

اسلاید 3: مقدمهطبقه بندی یکی از پرتکرارترین وظایف ایجاد تصمیم در فعالیت های انسان است بسیاری مسائل می توانند به عنوان مسائل طبقه بندی تلقی شود. مثلاپیش بینی ورشکستگیدادن وامتشخیص پزشکی تشخیص کاراکتر دست خطتشخیص گفتارطبقه بندی کننده های آماری مبتنی بر تئوری تصمیم بیزین هستند3 / 33

اسلاید 4: مقدمه (ادامه)شبکه های عصبی یک ابزار مهم برای طبقه بندی محسوب می شودمزیت های شبکه های عصبیروش های خود تطبیقی برای مبنای داده هستندمی تواند هر تابعی را با دقت دلخواه تخمین بزندمدل های غیر خطی هستنددر تخمین احتمالات عقبی (posterior probability) توانا هستندتعدادی از مسائل با توجه به شبکه های عصبی هنوز به طور موفقیت آمیزی حل نشده اند4 / 33

اسلاید 5: تئوری طبقه بندی بیزینتئوری تصمیم بیزین پایه روش های آماری استمسئله طبقه بندی به M-گروه را در نظر بگیرید‌:x : بردار صفت با d بعدw : متغییر عضویت𝑝( 𝑤 𝑗 ) :‌ احتمال عقبی گروه j𝑓( 𝑥|𝑤 𝑗 ) :‌ تابع چگالی احتمال 𝑝 𝑤 𝑗 𝑥 = 𝑓 𝑥| 𝑤 𝑗 𝑝( 𝑤 𝑗 ) 𝑓(𝑥) 𝑓 𝑥 = 𝑗=1 𝑀 𝑓 𝑥| 𝑤 𝑗 𝑝( 𝑤 𝑗 ) 5 / 33

اسلاید 6: تئوری طبقه بندی بیزین(ادامه)فرض کنید داده x مشاهده شده است. احتمال خطای طبقه بندی به صورت زیر است :𝑝 𝐸𝑟𝑟𝑜𝑟 𝑥 = 𝑖≠𝑗 𝑝 𝑤 𝑖 𝑥 =1−𝑝 𝑤 𝑗 𝑥 𝑖𝑓 𝑤𝑒 𝑑𝑒𝑐𝑖𝑑𝑒 𝑤 𝑗 𝐷𝑒𝑐𝑖𝑑𝑒 𝑤 𝑘 𝑓𝑜𝑟 𝑥 𝑖𝑓 𝑝 𝑤 𝑘 𝑥)= max 𝑖=1,2,… , 𝑀 𝑝 𝑤 𝑖 𝑥) اگر هدف به حداقل رساندن نرخ طبقه بندی اشتباه باشد , پس از قانون طبقه بندی بیزین به طور گسترده به صورت زیر استفاده می کنیم :توابع جدا کننده خطی و درجه دوم می‌توانند با اتخاذ توزیع نرمال چند متغیره برای چگالی شرطی 𝑓 𝑥 𝑤 𝑗 ) از بردار صفت x نتیجه شوند6 / 33

اسلاید 7: تئوری طبقه بندی بیزین(ادامه)دو مشکل در پذیرفتن قانون تصمیم بیز ساده :در اکثر مواقع تابع چگالی معلوم نیستبه اثر خطای طبقه بندی اشتباه بی تفاوت هستیمراهکار : نسبت دادن هزینه به خطای طبقه بندی اشتباه c ij X : هزینه طبقه بندی اشتباه x به گروه i, در صورتی که در اصل متعلق به گروه j باشدهزینه مورد انتظار به صورت زیر است : 𝑐 𝑖 𝑥 = 𝑗=1 𝑀 𝑐 𝑖𝑗 𝑥 𝑝 𝑤 𝑗 𝑥) , i=1,2, …, Mقانون طبقه بندی بیزین به طوری کلی به صورت زیر است :𝐷𝑒𝑐𝑖𝑑𝑒 𝑤 𝑘 𝑓𝑜𝑟 𝑥 𝑖𝑓 𝑐 𝑘 𝑥 = min 𝑖=1,2, …, 𝑀 𝑐 𝑖 (𝑥) 7 / 33

اسلاید 8: تخمین احتمال عقبی از طریق شبکه های عصبیدر مسائل طبقه بندی می توان با استفاده از شبکه های عصبی,تخمینی از احتمالات عقبی بدست آوردیک شبکه عصبی برای مسئله طبقه بندی می تواند به صورت یک تابع نگاشت دیده شود : 𝑭 : 𝑹 𝒅 → 𝑹 𝑴 از تئوری تخمین کمترین مربعات در آمار, تابع نگاشت 𝐹:𝑥→𝑦, به صورت زیر است :𝑭 𝒙 =𝑬[𝒚|𝒙]j-امین عنصر F(x) به صورت زیر تعین می شود : 𝑭 𝒋 𝒙 =𝑬 𝒚 𝒋 𝒙 =𝟏.𝒑 𝒚 𝒋 =𝟏 𝒙)+𝟎 . 𝑷 𝒚 𝒋 =𝟎 𝒙)=𝒑 𝒚 𝒋 =𝟏 𝒙)=𝒑( 𝒘 𝒋 |𝒙)می توان انواع دیگر تابع خطا را بکار برد.مثل: تابع آنتروپی تقابلی8 / 33

اسلاید 9: شبکه های عصبی و طبقه بندی کننده های مرسومطبقه کننده های آماری مبتنی بر تئوری تصمیم بیزین هستند, که احتمالات عقبی نقش اصلی را بازی می‌کندکد کردن مختلف اعضای خروجی :مسئله طبقه بندی دو-گروه اگر شی متعلق به کلاس 1 باشد, خروجی به صورت 1اگر شی متعلق به کلاس 2 باشد, خروجی به صورت 1-تابع جدا کننده زیر را داریم :𝑔 𝑥 =𝑝 𝑤 1 𝑥)−𝑝 𝑤 2 𝑥)9 / 33

اسلاید 10: شبکه های عصبی و طبقه بندی کننده های مرسوم(ادامه)Raudys ثابت کرد با کنترل هدفمند پیچیدگی پرسپترون تک لایه, مرزهای تصمیم طبقه بندی کننده, برابر یا نزدیک 7 طبقه بندی کننده آماری زیر هستند :طبقه بندی کننده فاصله Enclideanتابع جدا کننده خطی Fisherتابع جدا کننده خطی Fisher با شبه وارونه سازی ماتریس کواریانستابع جدا کننده خطی Fisher تعمیم بافتهمنظم کردن تحلیل جدا کننده خطیطبقه بندی کننده حداقل خطای تجربیطبقه بندی کننده حداکثر اختلاف10 / 33

اسلاید 11: شبکه های عصبی و طبقه بندی کننده های مرسوم(ادامه)رگرسیون دو حالته (Logistic Regression) ابزار طبقه بندی کننده مهم دیگر است, که در تشخیص پزشکی و مطالعات امراض همه گیر استفاده می شود.غالبا بر تحلیل جدا کننده ترجیح داده می شودنتیجه آزمایش جامع Minchiکه در مطالعه مقایسه ای پروژه StatLog بود و 3 روش طبقه بندی (شبکه های عصبی , طبقه بندی کننده های آماری و یادگیری ماشین) مقایسه شده بود, نشان داد که یک طبقه بندی کننده خوب برای همه مجموعه داده ها وجود ندارد11 / 33

اسلاید 12: یادگیری و تعمیمیادگیری : توانایی در تخمین رفتار با توجه به داده آموزشیتعمیم :‌ توانایی پیش بینی خوب, فراتر از داده های آموزشیتعدادی از موضوعات طراحی شبکه کاربردی وابسته به یادگیری و تعمیم :اندازه شبکه اندازه نمونهانتخاب مدلانتخاب ویژگیUnderfitting : مدل ساده و غیرقابل انعطاف. مثل طبقه بندی کننده خطیOverFitting : مدل پیچیده و انعطاف پذیر. مثل شبکه های عصبیدو پدیده بالا از طریق تجزیه Bias-plus-Variance تحلیل می‌شود12 / 33

اسلاید 13: ترکیب بایاس و واریانس از خطای پیش بینیبایاس : اختلاف بین خروجی تابع اصلی با تابعی که تخمین زده شده استواریانس : حساسیت تابع تخمینی به مجموعه داده های آموزشیمثالی از بایاس و واریانس13 / 33

اسلاید 14: ترکیب بایاس و واریانس از خطای پیش بینی(ادامه)یک مسئله طبقه بندی کننده دو-گروهی را در نظر بگیرید که متغییر خروجی y, باینری است. داریم :𝒚=𝑭 𝒙 +𝜺 با توجه به فرمول های قبلی , انتظار شرطی y با توجه به x, به صورت زیر است :𝑭 𝒙 =𝑬 𝒚 𝒙 =𝒑 𝒘 𝟏 𝒙 یک مجموعه داده آموزشی 𝐷 𝑁 داریمهدف : پیدا کردن یک تخمین از F(x)(مثلا 𝑓(𝑥; 𝐷 𝑁 )) , که مجموع خطای تخمینی حداقل شود.پس داریم :تغییر دادن مجموعه داده یا اندازه نمونه ها , می تواند خطای تخمین را تغییر دهد𝑀𝑆𝐸=𝐸 𝑦−𝑓 𝑥; 𝐷 𝑁 2 =𝐸 𝑦−𝐹 𝑥 2 + (𝑓 𝑥; 𝐷 𝑁 −𝐹(𝑥)) 2 14 / 33

اسلاید 15: ترکیب بایاس و واریانس از خطای پیش بینی(ادامه)حالت مطلوب این است که بایاس و واریانس کم باشند اما به طور همزمان غیر ممکن استیک مدل خوب بایستی به خوبی بین بایاس مدل و واریانس مدل تعادل برقرار کندکارهای انجام گرفته در این حوزه :Geman : کار بروی trade off بین بایاس و واریانس تحت تابع هدف دو جمله ایWolpert‌:‌ توسعه مفهوم بایاس-به علاوه- واریانس در مفهوم بیزینDietterich and Kong‌:‌ نسخه متفاوتی از بایاس-واریانس برای توابع 0-1 از مسائل طبقه بندی 15 / 33

اسلاید 16: کاهش خطای پیش بینییک مشکل رایج Overfitting است که ناشی از واریانس بالاست در تعمیم است.Dietterich نشان داد که واریانس فاکتور مهم‏تری از Bias در کارایی پیش‏بینی است.Breiman نشان داد روش‏های کلاس‏بندی شبکه عصبی جزء روش‏های ناپایدار هستند:به این معنی که تغییر کوچک در داده‏ی آموزشی سبب تغییر بزرگ در نتیجه تست خواهد شد.بنابراین بیشترین تلاش در زمینه کاهش Overfitting است.16 / 33

اسلاید 17: تعمیم و کلاس‏بندییک نتیجه بسیار مهم از Dietterich این بودکه الگوریتم‏های بهینه در مرحله آموزش نتایج مناسبی را بر روی داده تست ندارند.17 / 33

اسلاید 18: کاهش واریانسبرخی از روش‏های ارائه شده برای کاهش واریانس:Cross Validationآموزش با تخصیص پنالتیWeight decayهرس نود18 / 33

اسلاید 19: کلاس‏بندهای تجمیعی (Ensemble Classifier)یک روش بسیار پرطرفدار در کاهش خطای تعمیمتولید بر اساس ترکیب چندین Classifierایده کلی: بر اساس میانگین‏گیری و رای‏گیری مزیت: سبب کاهش واریانسبه صورت تئوری اثبات شده است، که کارایی این روش بدتر از هر کدام از Classifierهای آن نیست، در صورتی که: پیش‏بینی هر کدام از این واحدها Unbiased و Uncorrelated باشند.19 / 33

اسلاید 20: تولید کلاس‏بند تجمیعی راه‏کارهای زیر برای تولید این دسته ارائه شده است:معماری چندگانه شبکهیک معماری و آموزش با الگوریتم‏های مختلفوزن‏های شروع تصادفی مختلفClassifier های مختلفآموزش اجزاء شبکه‏ مختلف توسط داده‏های متفاوت همانند روش‏های باز نمونه گیری داده Resampling))20 / 33

اسلاید 21: روش‏های ترکیب Classifierاز جمله این روش‏ها:پرطرفدارترین ایده؛ میانگین‏گیری ساده از خروجی Classifier مختلفو میانگین‏گیری وزن‏دارروش‏های غیرخطی:belief-basedRank-based informationVoting SchemaOrder statistics21 / 33

اسلاید 22: توانایی کاهش خطا در مدل تجمیعیدر این مدل‏ها نیز هدف کاهش واریانس مقدم بر هدف کاهش بایاس است.از آن‏جا که ما به دنبال Classifierهای متناقض‏تر هستیم، پس این مدل‏ها می‏توانند بایاس بسیار بالایی داشته باشند، اما:میانگین‏گیری سبب تعدیل بایاس و بسیار مهم تر از آن موجب کاهش حساسیت نسبت به داده‏ی جدید خواهد شد.22 / 33

اسلاید 23: (Uncorrelation)ناهم‏بستگی )اثبات شد که هم‏بستگی و همخوانی Classifier ها برای مدل تجمیعی مضر است.آقای Sharkey به بیان نیازها و مزایای تنوع این Classifierها پرداخت.و آقای Rogova نشان داد که ترکیب Classifierهای بهتر لزوما کارایی بهتری نخواهد داشت...پس هرچه جداکننده‏ها مستقل‏تر و متناقض‏تر؛ کارایی مدل بهتر...23 / 33

اسلاید 24: راه‏کارهای کاهش ارتباطروش اول ساخت مدل با استفاده از متغیرهای ویژگی متفاوت برای هر جداکننده است. (Feature Variable) اثبات شده است که این روش استقلال بهتری را نسبت به روش استفاده از معماری‏های مختلف با متغیرهای ویژگی یکسان، سبب می‏شود.روش دیگر آموزش بر روی مجموعه داده‏های مختلف است.برای این منظور تکنیک‏های نمونه‏گیری آماری همانند bootstrapping برای تولید چندین نمونه داده‏ای از داده اصلی استفاده می‏شود. همانند:BaggingAcring Breiman نشان داد که این دو روش هم بایاس و هم واریانس را کاهش می‏دهند اما در کاهش واریانس تواناترند.24 / 33

اسلاید 25: چالش‏های مدل تجمیعیدر راه تولید یک مدل تجمیعی مشکلات شامل موارد زیر است:این که تحت چه شرایطی استفاده از این مدل به صرفه است؟انتخاب هر کدام از Classifierهاروشی عمومی و بهینه برای ترکیب Classifierهاو اندازه‏ی مدل 25 / 33

اسلاید 26: انتخاب متغیرهای ویژگیهدف این پروسه یافتن کوچکترین زیرمجموعه از داده‏ی اصلی در حالی که هنوز کارایی پیش‏بینی بر اساس این مجموعه رضایت‏بخش است.دلیل این پردازش که منجر به محدود کردن تعداد ورودی‏ها خواهد شد:کاهش محاسباتبهبود پیش‏بینی با کاهش فضای جستجوایده کلی:کارایی کلاس‏بندی با استفاده از ویژگی‏های مستقل از لحاظ آماری افزایش خواهد یافت.26 / 33

اسلاید 27: مقیاس‎های آگاهانه با هدف تخمین اهمیت نسبی یا سهم ویژگی‏های ورودی بر متغیرهای خروجیدر ابتدا ارائه ساده‏ترین روش‏ها با دو ویژگی:نشان‏دهنده‏ی تاثیر متغیرهای ورودی بر خروجی محدودیت آشکار، عدم توجه به تاثیر نودهای مخفی27 / 33

اسلاید 28: مقیاس‏های کاراترایده کلی: بررسی تاثیر ورودی‏ها و نودهای لایه‏های مخفی بر روی خروجیمقیاس شبه وزن: مجموع حاصلضرب اوزان نودهای ورودی در نودهای مخفی و اوزان نودهای مخفی متناظر در نود خروجی.ارائه مقیاس بسیار مهم توسط گارسون:تجزیه لایه مخفی به اجزاء وابسته به هر نود ورودی و سپس درصد تمامی اوزان نودهای مخفی قابل نسبت دادن به یک نود ورودی خاص.این روش پرطرفدار، مورد توجه سایر محققان قرار گرفت28 / 33

اسلاید 29: مقیاس‏های کاراتر(ادامه)مقیاس بعدی توسط آقای Sung با استفاده ازسه مفهومآنالیزحساسیت، منحنی فازی،و تغییر میانگین مربعات خطا با هدف رتبه‏بندی اهمیت ویژگی‏های ورودی 29 / 33

اسلاید 30: جستجو در فضای ویژگی‏هامی‏دانیم جستجوی کامل در فضای ویژگی‏ها امکان پذیر نیست، به همین دلیل استفاده از جستجوهای آگاهانه همانند:Backward eliminationForward Selectionبه عنوان مثال یکی از این روش‏ها شامل مراحل زیر بود:شروع با مجموعه کامل از ویژگی‏ها برای هر صفت متغیرها (attribute)، صحت شبکه ارزیابی می‏شود به این صورت که تمام اوزان وابسته به آن صفر خواهد شد.در انتها حذف متغیری که کمترین کاهش صحت را داشته باشد.30 / 33

اسلاید 31: مشکلات روش‏های انتخاب ویژگیمتاسفانه برای هیچ‏کدام از روش‏های فوق تست‏های دقیق و سخت آماری وجود ندارد بنابراین در عمل ممکن است نتایج عملی با آنچه گفته شد سازگار نباشد!!!بیشترین این روش‏ها تنها در شرایط خاصی به خوبی جواب می‏دهند.بنابراین نیاز به ارائه‏ی روش‏های سیستماتیک و عمومی‏تر در انتخاب ویژگی‏ها31 / 33

اسلاید 32: جمع‏بندیاز جمله مشکلات این کار شامل:تعداد مراجع بسیار بالاعدم مقایسه راه‏کارهای متفاوتدر برخی مواقع مسائل با جزئیات و برخی بسیار کلی بررسی شده‏اند.32 / 33

اسلاید 33: با تشکر از توجه شما

10,000 تومان

خرید پاورپوینت توسط کلیه کارت‌های شتاب امکان‌پذیر است و بلافاصله پس از خرید، لینک دانلود پاورپوینت در اختیار شما قرار خواهد گرفت.

در صورت عدم رضایت سفارش برگشت و وجه به حساب شما برگشت داده خواهد شد.

در صورت نیاز با شماره 09353405883 در واتساپ، ایتا و روبیکا تماس بگیرید.

افزودن به سبد خرید