تجزیه و تحلیل اطلاعاتعلوم مهندسی

استفاده از ماشین بردار پشتیبان SVM برای تشخیص گوینده

39 صفحه
4601 بازدید
31 فروردین 1397

برچسب‌ها

صفحه 1:
۱ ماشين برداريشتيبان (/51/1) براى تشخيص كوبنده سمينار درس بازشناسى كفتار 0

صفحه 2:
* استخراج ویژگی برای تشخیص گوینده * مسئله دسته‌بندی و جداسازی نمونه‌ها از روی ویژگی‌ها * معیار مقایسه دسته‌بندی کننده‌ها * دسته‌بندی کننده خطی * پیدا کردن دسته‌بندی خطی بهینه * استفاده از فضاهای بالاتر و توابع هسته * حالت خطاى ياد كيرى غير صفر

صفحه 3:
تشخیصر گوینده * تفکیک گوینده های مختلف از یکدیگر * استفاده از ویژگیهای صوتی برای تشخیص * دو روش کلی: * ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلها سعی در تفکیک گوینده های مختلف از یکدیگر

صفحه 4:
استخراج ویژگ برای کاهش ابعاد * تعداد زیاد نمونه در صدای ذخیره شده " حداقل 8 كيلو هرتز. 4 بیت برای هر نمونه (۶۴ کیلو بیت بر ثانیه) * نياز به اين دقت برای پخش صدا و بازسازی موج تغییر آهسته ویژگیهای صدا در طول زمان * امکان نمایش و ذخیره یک پنجره (فریم) نسبتا طولانی (۱۰ تا ۵ میلی انیه) با تعداد کمی ویژگی * نمایش یک پنجره با ۱۴ ویژگی: کاهش ابعاد به نسبت ۱۱.۴ * نیاز به تعریف و استخراج ویژگی

صفحه 5:
استخراج ویژگ برای تشخیص گوینده * اطلاعات گوینده در طول موج بازه های کوتاه ‎short-term spectrum ®‏ اطلاعات موجود در یک پنجره ۲۰ میلی ثانیه ای * یکی رایج ترین ویزگیها : 660573 ۲۱۵۱-۸۷۵۲۵۵۵ ‎cepstrum (frame) = FFT? (log IFFT (frame)l)‏ * استفاده از فیلتر ۲06 بر روی طیف به منظور تاکید کمتر بر روی فرکانس های بالا "" تبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انسان * استفاده از چند ضریب اول (معمولا ۱۴ ضریب)

صفحه 6:
MEL-WARPED CEPSTRA

صفحه 7:
دسته‌بندی وجداسازی نمونه‌ها ازروی ویژگ‌ها * یادگرفتن مفاهیم از روی نمونه‌های آموزشی * ساده‌ترین حالت: حالت دو کلاسه * نمونه‌های مثبت : # نمونه‌های منفی ‎ae‏ ‏* فضای چند بعدی* , ‎٠‏ 3 # نمونه‌ها: بردارهای عددی

صفحه 8:
مقدمه (ادامه) * یک جواب ممکن

صفحه 9:
مقدمه (ادامه) * یک جواب ممکن دیگر

صفحه 10:
مقدمه (ادامه) * یک جواب ممکن دیگر

صفحه 11:
معیارمقایسه کدام جواب بهتر است؟ * منظور از بهتر بودن جواب؟ * نیاز به کمیت عددی یک معیار: خطای هر جواب رمخ ار ۰ 58 دم ‎es‏ ‏9056 ‏مش 0 006 ‎Bon OS‏ 50

صفحه 12:
خطای روش * خطای دسته‌بندی نمونه‌های آموزشی ‎(Emperical Risk)‏ 1 Rp) =a di ۶,0۵ * خطای دسته‌بندی کلیه داده‌ها * مشکل اصلی ( ‎£(%o|drx,‏ دم # عدم دانستن تابع توزیع احتمال عدم امکان محاسبه 8 # نیاز به تخمین ‎٩‏ Ra) = fi

صفحه 13:
بعد ۷ VC: Vapnik Chervonenkis ° * ويزكى يك خانواده از توابع * بیان کننده میزان انعطاف یک تابع در دسته‌بندی حالات * برای حالت دو کلاسه: حداکثر تعداد نمونه‌های مختلف (0) که به ازای هر حالت از 2 برای نمونه‌ها. تابعی در خانواده باشد که تمامی نمونه‌ها را به درستی نشان دهد.

صفحه 14:
مثال بعد ‎VE‏ * یک خط در فضای دو بعدی ال 1

صفحه 15:
بعد م۷ توابع خطی * یک تابع خطی در فضای 0 بعدی ‎(RY)‏ ‏یک ابر صفحه است * دارای بعدی ۷6 برایر 01 است.

صفحه 16:
2( بك |(ه ب 1 2 ‎Ra) = fi‏ مرح - | 43= ری * ثابت شده است (1995 ۷۵۵۳6 که له زیر با احتمال 1-7 _ برقرار است. ‎logl/4)‏ - [1+ ل 2 آوم1 از م ‎ ‏ل )ري > له ‎ ‎ ‎

صفحه 17:
Expected Risk Confidence _ ۱ Empirical Risk small Complexity of Function Set‘ #"8¢

صفحه 18:
دسته‌بندی کننده خطی دسته‌بندی کردن داده با استفاده از یک صفحه f(x) =(w-x)+b

صفحه 19:
دستهبندى خطى ببينه * هدف: انتخاب تابع خطى (ابر صفحه) بهينه * نياز به معيار بهينه بودن 000 *1/ا/ا5 : بيشتر كردزجدلق[فاصله نمونهها تا ۴ بسیشتر کردنف اصله دسته‌ه و کسمتر کردزپسراکندگی دسته‌ها

صفحه 20:
KFD : KERNEL FISHER DISCRIMINANT WPCA

صفحه 21:
SVM: SUPPORT VECTOR MACHINES o Class 1

صفحه 22:
بيدا گردن دسته‌بندی گننده خطی * تابع مورد نظر: )+ ‎y = sign ((w - x)‏ * تشخیص درست تمامی نمونه‌ها: ‎yi((w-x;) +b) >1, i=1,...,0‏ * در فضای بالاتر: بح ب1< (9 + ((:56 ۰ ۷:))۳

صفحه 23:
پیدا کردن دسته‌بندی کننده خطی (ادامه) * رابطه بین بعد ۷۲ و اندازه بردار ۷۷ ۸ > ۳۳| مه 1+ ۸۳۴ > Hogl 24) +1) login ‏از طرقى داديم: [ به‎ * ABS arte Ra) <R,,(a)+ يس براى بيشينه كردن قدرت تعمیم بای 4 ‎min =||w||‏ ‎wh 2‏

صفحه 24:
ضرایب لاگرانژ * هدف كمينه يا بيشينه كردن تابع 0- (1 #لُوجه به شرط 20 )۵ * می‌توان تابع زیر را تعریف کرد: 2 )وه + (ز ۶6 < ( دا * و قرار داد: 01۳0 y) -0 OX y) -0 OHX y) -0 ox "ay 0

صفحه 25:
استفاده ازضرایپ ‎LST‏ * با استفاده از ضرایب لاگرانژ می‌توان نوشت: ‎Bw? = J aa(ya( (ww = H(3%)) +8) = 1)‏ = يه سيط ‎OL 0 ۰‏ 01 که در نقطه بهینه داریم: ?7 ‎and aw‏ 0 و ‏* ويا معادلا داریم: ‎n 4 Saini =0 and w= YS ainiF(x:) i=l i=l

صفحه 26:
استفاده ازفضاهای بالاتر * در فضاهای بالاتر. دسته‌بندی کننده خطی دارای بعد ۷ پیشتری است. * بنابراین می‌تواند توابع پیچیده‌تر را تشخیص دهد. کر ( ید ردب 2/درد) << (ود رد)

صفحه 27:
استفاده ازتوابع هسته * به تابع > یک تابع هسته می‌گوییم اگر: k(x,y) = (®(x) - ®(y)) جب 5:۲ (a1,@2) ‏جد‎ (21, 22,23) = (af, V2.2 22,23) (®(x)-B(y)) - (ei, V2 arwe,03)(y?, V2 yrye,y3)7 = (21,22) (y1.y2)")? (x-y)? =: k(x,y).

صفحه 28:
چند تابع هسته معروف _ _ 2 Gaussian RBF k(x,y) = exp ‏كاعد‎ ‎Polynomial ((x-y) +)" Sigmoidal —_ tanh(«(x - y) + 4) 1 ۷/۱ yl? +6? inv. multiquadric

صفحه 29:
استفاده ازتابع هسته * شرايط: (1- (6+ ((:*)ة ‎L(w,b, a) = 2۱۳۳ - a le‏ Yawn = =0 and w= Yous (x;) ‏را می‌توان به صورت زیر نوشت:‎ * n n 1 max Yai ‏و‎ 0 aaj yiyy K(xi, xj) i=1 ij=l subject to ‏يه‎ 0, = Lys on My n i=1 Ci = O-

صفحه 30:
استفاده ازتابع هسته (ادامه) * بتابراين داريم: i)) +b 1 Se yiei( B(x) ۰ B(x; t=1 So yiai k(x, x;) +b $1 sgn ( sgn (

صفحه 31:
Class 2 Class 1

صفحه 32:
خطای یادگیری غیرصفر

صفحه 33:
خطاى يادكيرى غير صفر (ادامه) * به جاى شرط: ...بح 4 ,1< (ط+ ((بع)ة ‎٠.‏ سان * داريم: ‎yi((w- ®(x;)) +b) >1-&, &>0, i=1,...,n‏

صفحه 34:
خطاى يادكيرى غير صفر (ادامه) * تابع مورد نظر براى كمينه سازى: ee ee ‏و2۳۳6 يج‎ * به طور معادل داریم: ‎n ie‏ (ر, ‎SS avagjyiys‏ 7 ره رو ‎max‏ ‎i=1 ij=l‏ ‎subject to 0<a;<C,i=1,...,n,‏ ‎VL, ain: = 0.‏

صفحه 35:
رابطه تعداد بردارپشتیبان و خطای تست 21/) 4.1) - Hed <Regias | Met ZA ool (#Support Vectors) ‏سس اس رايب‎ Rien {f) > (#of Train Vectors — 1)

صفحه 36:
حالت چند کلاسه * روش 5۷۷ برای حالت دو کلاسه * دو راه برای حالت چند کلاسه * استفاده از یک جداکننده برای هر کلاس از بقیه #نیاز به 0 جداکننده سرعت بیشتر 5 استفاده از یک جداکننده برای جدا کردن هر دو کلاس از هم ‎N(N-1)/2 4, 5ls™‏ جداکننده #دقت بیشتر

صفحه 37:
مجموعه 6180۸۲ 5۷۷۲۲ * تهیه شده توسط 5۲ * برای آزمایش تشخیص گفتار عادی (5ا600۳۵۳60) * صدای ضبط شده از پشت خط تلفن * ۲۶ گوینده (۱۵ مرد. ۱۱ زن) * برای هر گوینده ۱۰ تا ۱۵ ثانیه نمونه آموزشی و ۱۸ نمونه آزمایشی به طول متوسط ۵ ثانیه یک مجموعه دشوار: کیفیت پایین صدا به خاطر کیفیت پایین میکروفون و خط. عبور از خط تلفن و فیلتر شدن. نمونه آموزشی و آزمایشی کم

صفحه 38:
نمونه ای ازنتایج استفاده ازا5۷1۷ * تست بر روی مجموعه ‎Switchboard‏ ۰ ثانیه نمونه آموزشی: ۱۰۰۰ ضریب کپستروم * استفاده از مدل 5196 :0311/1/1 دقت * استفاده از یک جداکننده برای هر گوینده در برابر بقیه: Polynomial Degree 3 Avg. # Target SV 800 Avg. # Other SV 2000 Correct Identifications | 43% * استفاده از یک جداکننده برای هر جفت گوینده : ‎Polynomial Degree 2 | 8 | 4 | 5‏ Avg. % SV. 25% | 30% | 35% | 40% Correct Wdentifications | 51% | 55% [50% | 48%

صفحه 39:

39,000 تومان