استفاده از ماشین بردار پشتیبان SVM برای تشخیص گوینده
اسلاید 1: استفاده از ماشین بردار پشتیبان (SVM) برای تشخیص گویندهسمینار درس بازشناسی گفتارسجاد شیرعلی شهرضا
اسلاید 2: فهرست مطالبتشخیص گویندهاستخراج ویژگی برای تشخیص گویندهمسئله دستهبندی و جداسازی نمونهها از روی ویژگیهامعیار مقایسه دستهبندی کنندههادستهبندی کننده خطیپیدا کردن دستهبندی خطی بهینهاستفاده از فضاهای بالاتر و توابع هستهحالت خطای یادگیری غیر صفر
اسلاید 3: تشخیص گویندهتفکیک گوینده های مختلف از یکدیگراستفاده از ویژگیهای صوتی برای تشخیصدو روش کلی:ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلهاسعی در تفکیک گوینده های مختلف از یکدیگر
اسلاید 4: استخراج ویژگی برای کاهش ابعادتعداد زیاد نمونه در صدای ذخیره شدهحداقل 8 کیلو هرتز، 8 بیت برای هر نمونه (64 کیلو بیت بر ثانیه)نیاز به این دقت برای پخش صدا و بازسازی موجتغییر آهسته ویژگیهای صدا در طول زمانامکان نمایش و ذخیره یک پنجره (فریم) نسبتا طولانی (10 تا 25 میلی ثانیه) با تعداد کمی ویژگینمایش یک پنجره با 14 ویژگی: کاهش ابعاد به نسبت 11.4نیاز به تعریف و استخراج ویژگی
اسلاید 5: استخراج ویژگی برای تشخیص گویندهاطلاعات گوینده در طول موج بازه های کوتاهshort-term spectrumاطلاعات موجود در یک پنجره 20 میلی ثانیه اییکی رایج ترین ویژگیها : Mel-warped Cepstraاستفاده از فیلتر mel بر روی طیف به منظور تاکید کمتر بر روی فرکانس های بالاتبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انساناستفاده از چند ضریب اول (معمولا 14 ضریب)
اسلاید 6: Mel-warped Cepstra
اسلاید 7: مسئله دستهبندی و جداسازی نمونهها از روی ویژگیهایادگرفتن مفاهیم از روی نمونههای آموزشیسادهترین حالت: حالت دو کلاسهنمونههای مثبتنمونههای منفیفضای چند بعدینمونهها: بردارهای عددی+1-1
اسلاید 8: مقدمه (ادامه)یک جواب ممکن
اسلاید 9: مقدمه (ادامه)یک جواب ممکن دیگر
اسلاید 10: مقدمه (ادامه)یک جواب ممکن دیگر
اسلاید 11: معیار مقایسهکدام جواب بهتر است؟منظور از بهتر بودن جواب؟نیاز به کمیت عددییک معیار: خطای هر جواب
اسلاید 12: خطای روشخطای دستهبندی نمونههای آموزشی (Emperical Risk)خطای دستهبندی کلیه دادههامشکل اصلیعدم دانستن تابع توزیع احتمالعدم امکان محاسبه Rنیاز به تخمین R
اسلاید 13: بعد VCVC: Vapnik Chervonenkis ویژگی یک خانواده از توابعبیان کننده میزان انعطاف یک تابع در دستهبندی حالات مختلفبرای حالت دو کلاسه: حداکثر تعداد نمونههای مختلف (h) که به ازای هر حالت از 2h برای نمونهها، تابعی در خانواده باشد که تمامی نمونهها را به درستی نشان دهد.
اسلاید 14: مثال بعد VCیک خط در فضای دو بعدی3 نقطه:4 نقطه:h=3
اسلاید 15: بعد VC توابع خطییک تابع خطی در فضای d بعدی (Rd)یک ابر صفحه استدارای بعدی VC برابر d+1 است.
اسلاید 16: تخمین میزان خطاثابت شده است (Vapnic 1995) که رابطه زیر با احتمال برقرار است.
اسلاید 17: مثالی از رابطه قبل
اسلاید 18: دستهبندی کننده خطیدستهبندی کردن داده با استفاده از یک صفحه
اسلاید 19: دستهبندی خطی بهینههدف: انتخاب تابع خطی (ابر صفحه) بهینهنیاز به معیار بهینه بودنSVM : بیشتر کردن حداقل فاصله نمونهها تا خطKFD: بیشتر کردن فاصله دستهها و کمتر کردن پراکندگی دستهها
اسلاید 20: KFD : Kernel Fisher Discriminant
اسلاید 21: SVM: Support Vector MachinesClass 1Class 2m
اسلاید 22: پیدا کردن دستهبندی کننده خطیتابع مورد نظر:تشخیص درست تمامی نمونهها:در فضای بالاتر:
اسلاید 23: پیدا کردن دستهبندی کننده خطی (ادامه)رابطه بین بعد VC و اندازه بردار w:از طرفی داریم:پس برای بیشینه کردن قدرت تعمیم باید:
اسلاید 24: ضرایب لاگرانژهدف کمینه یا بیشینه کردن تابع با توجه به شرطاست.میتوان تابع زیر را تعریف کرد:و قرار داد:
اسلاید 25: استفاده از ضرایب لاگرانژبا استفاده از ضرایب لاگرانژ میتوان نوشت:که در نقطه بهینه داریم:و یا معادلا داریم:
اسلاید 26: استفاده از فضاهای بالاتردر فضاهای بالاتر، دستهبندی کننده خطی دارای بعد VC بیشتری است.بنابراین میتواند توابع پیچیدهتر را تشخیص دهد.
اسلاید 27: استفاده از توابع هستهبه تابع k یک تابع هسته میگوییم اگر:مثال:
اسلاید 28: چند تابع هسته معروف
اسلاید 29: استفاده از تابع هستهشرایط:را میتوان به صورت زیر نوشت:
اسلاید 30: استفاده از تابع هسته (ادامه)بنابراین داریم:
اسلاید 31: مثالa6=1.4Class 1Class 2a1=0.8a2=0a3=0a4=0a5=0a7=0a8=0.6a9=0a10=0
اسلاید 32: خطای یادگیری غیر صفرClass 1Class 2
اسلاید 33: خطای یادگیری غیر صفر (ادامه)به جای شرط: داریم:
اسلاید 34: خطای یادگیری غیر صفر (ادامه)تابع مورد نظر برای کمینه سازی:به طور معادل داریم:
اسلاید 35: رابطه تعداد بردار پشتیبان و خطای تست
اسلاید 36: حالت چند کلاسهروش SVM برای حالت دو کلاسهدو راه برای حالت چند کلاسهاستفاده از یک جداکننده برای هر کلاس از بقیهنیاز به n جداکنندهسرعت بیشتراستفاده از یک جداکننده برای جدا کردن هر دو کلاس از همنیاز به n(n-1)/2 جداکنندهدقت بیشتر
اسلاید 37: مجموعه Switchboardتهیه شده توسط NISTبرای آزمایش تشخیص گفتار عادی (spontaneous)صدای ضبط شده از پشت خط تلفن26 گوینده (15 مرد، 11 زن)برای هر گوینده 10 تا 15 ثانیه نمونه آموزشی و 18 نمونه آزمایشی به طول متوسط 5 ثانیهیک مجموعه دشوار: کیفیت پایین صدا به خاطر کیفیت پایین میکروفون و خط، عبور از خط تلفن و فیلتر شدن، نمونه آموزشی و آزمایشی کم
اسلاید 38: نمونه ای از نتایج استفاده از SVMتست بر روی مجموعه Switchboard10 ثانیه نمونه آموزشی: 1000 ضریب کپستروماستفاده از مدل GMM: 51% دقتاستفاده از یک جداکننده برای هر گوینده در برابر بقیه:استفاده از یک جداکننده برای هر جفت گوینده :
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.