تجزیه و تحلیل اطلاعاتعلوم مهندسی

استفاده از ماشین بردار پشتیبان SVM برای تشخیص گوینده

صفحه 1:
۱ ماشين برداريشتيبان (/51/1) براى تشخيص كوبنده سمينار درس بازشناسى كفتار 0

صفحه 2:
* استخراج ویژگی برای تشخیص گوینده * مسئله دسته‌بندی و جداسازی نمونه‌ها از روی ویژگی‌ها * معیار مقایسه دسته‌بندی کننده‌ها * دسته‌بندی کننده خطی * پیدا کردن دسته‌بندی خطی بهینه * استفاده از فضاهای بالاتر و توابع هسته * حالت خطاى ياد كيرى غير صفر

صفحه 3:
تشخیصر گوینده * تفکیک گوینده های مختلف از یکدیگر * استفاده از ویژگیهای صوتی برای تشخیص * دو روش کلی: * ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلها سعی در تفکیک گوینده های مختلف از یکدیگر

صفحه 4:
استخراج ویژگ برای کاهش ابعاد * تعداد زیاد نمونه در صدای ذخیره شده " حداقل 8 كيلو هرتز. 4 بیت برای هر نمونه (۶۴ کیلو بیت بر ثانیه) * نياز به اين دقت برای پخش صدا و بازسازی موج تغییر آهسته ویژگیهای صدا در طول زمان * امکان نمایش و ذخیره یک پنجره (فریم) نسبتا طولانی (۱۰ تا ۵ میلی انیه) با تعداد کمی ویژگی * نمایش یک پنجره با ۱۴ ویژگی: کاهش ابعاد به نسبت ۱۱.۴ * نیاز به تعریف و استخراج ویژگی

صفحه 5:
استخراج ویژگ برای تشخیص گوینده * اطلاعات گوینده در طول موج بازه های کوتاه ‎short-term spectrum ®‏ اطلاعات موجود در یک پنجره ۲۰ میلی ثانیه ای * یکی رایج ترین ویزگیها : 660573 ۲۱۵۱-۸۷۵۲۵۵۵ ‎cepstrum (frame) = FFT? (log IFFT (frame)l)‏ * استفاده از فیلتر ۲06 بر روی طیف به منظور تاکید کمتر بر روی فرکانس های بالا "" تبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انسان * استفاده از چند ضریب اول (معمولا ۱۴ ضریب)

صفحه 6:
MEL-WARPED CEPSTRA

صفحه 7:
دسته‌بندی وجداسازی نمونه‌ها ازروی ویژگ‌ها * یادگرفتن مفاهیم از روی نمونه‌های آموزشی * ساده‌ترین حالت: حالت دو کلاسه * نمونه‌های مثبت : # نمونه‌های منفی ‎ae‏ ‏* فضای چند بعدی* , ‎٠‏ 3 # نمونه‌ها: بردارهای عددی

صفحه 8:
مقدمه (ادامه) * یک جواب ممکن

صفحه 9:
مقدمه (ادامه) * یک جواب ممکن دیگر

صفحه 10:
مقدمه (ادامه) * یک جواب ممکن دیگر

صفحه 11:
معیارمقایسه کدام جواب بهتر است؟ * منظور از بهتر بودن جواب؟ * نیاز به کمیت عددی یک معیار: خطای هر جواب رمخ ار ۰ 58 دم ‎es‏ ‏9056 ‏مش 0 006 ‎Bon OS‏ 50

صفحه 12:
خطای روش * خطای دسته‌بندی نمونه‌های آموزشی ‎(Emperical Risk)‏ 1 Rp) =a di ۶,0۵ * خطای دسته‌بندی کلیه داده‌ها * مشکل اصلی ( ‎£(%o|drx,‏ دم # عدم دانستن تابع توزیع احتمال عدم امکان محاسبه 8 # نیاز به تخمین ‎٩‏ Ra) = fi

صفحه 13:
بعد ۷ VC: Vapnik Chervonenkis ° * ويزكى يك خانواده از توابع * بیان کننده میزان انعطاف یک تابع در دسته‌بندی حالات * برای حالت دو کلاسه: حداکثر تعداد نمونه‌های مختلف (0) که به ازای هر حالت از 2 برای نمونه‌ها. تابعی در خانواده باشد که تمامی نمونه‌ها را به درستی نشان دهد.

صفحه 14:
مثال بعد ‎VE‏ * یک خط در فضای دو بعدی ال 1

صفحه 15:
بعد م۷ توابع خطی * یک تابع خطی در فضای 0 بعدی ‎(RY)‏ ‏یک ابر صفحه است * دارای بعدی ۷6 برایر 01 است.

صفحه 16:
2( بك |(ه ب 1 2 ‎Ra) = fi‏ مرح - | 43= ری * ثابت شده است (1995 ۷۵۵۳6 که له زیر با احتمال 1-7 _ برقرار است. ‎logl/4)‏ - [1+ ل 2 آوم1 از م ‎ ‏ل )ري > له ‎ ‎ ‎

صفحه 17:
Expected Risk Confidence _ ۱ Empirical Risk small Complexity of Function Set‘ #"8¢

صفحه 18:
دسته‌بندی کننده خطی دسته‌بندی کردن داده با استفاده از یک صفحه f(x) =(w-x)+b

صفحه 19:
دستهبندى خطى ببينه * هدف: انتخاب تابع خطى (ابر صفحه) بهينه * نياز به معيار بهينه بودن 000 *1/ا/ا5 : بيشتر كردزجدلق[فاصله نمونهها تا ۴ بسیشتر کردنف اصله دسته‌ه و کسمتر کردزپسراکندگی دسته‌ها

صفحه 20:
KFD : KERNEL FISHER DISCRIMINANT WPCA

صفحه 21:
SVM: SUPPORT VECTOR MACHINES o Class 1

صفحه 22:
بيدا گردن دسته‌بندی گننده خطی * تابع مورد نظر: )+ ‎y = sign ((w - x)‏ * تشخیص درست تمامی نمونه‌ها: ‎yi((w-x;) +b) >1, i=1,...,0‏ * در فضای بالاتر: بح ب1< (9 + ((:56 ۰ ۷:))۳

صفحه 23:
پیدا کردن دسته‌بندی کننده خطی (ادامه) * رابطه بین بعد ۷۲ و اندازه بردار ۷۷ ۸ > ۳۳| مه 1+ ۸۳۴ > Hogl 24) +1) login ‏از طرقى داديم: [ به‎ * ABS arte Ra) <R,,(a)+ يس براى بيشينه كردن قدرت تعمیم بای 4 ‎min =||w||‏ ‎wh 2‏

صفحه 24:
ضرایب لاگرانژ * هدف كمينه يا بيشينه كردن تابع 0- (1 #لُوجه به شرط 20 )۵ * می‌توان تابع زیر را تعریف کرد: 2 )وه + (ز ۶6 < ( دا * و قرار داد: 01۳0 y) -0 OX y) -0 OHX y) -0 ox "ay 0

صفحه 25:
استفاده ازضرایپ ‎LST‏ * با استفاده از ضرایب لاگرانژ می‌توان نوشت: ‎Bw? = J aa(ya( (ww = H(3%)) +8) = 1)‏ = يه سيط ‎OL 0 ۰‏ 01 که در نقطه بهینه داریم: ?7 ‎and aw‏ 0 و ‏* ويا معادلا داریم: ‎n 4 Saini =0 and w= YS ainiF(x:) i=l i=l

صفحه 26:
استفاده ازفضاهای بالاتر * در فضاهای بالاتر. دسته‌بندی کننده خطی دارای بعد ۷ پیشتری است. * بنابراین می‌تواند توابع پیچیده‌تر را تشخیص دهد. کر ( ید ردب 2/درد) << (ود رد)

صفحه 27:
استفاده ازتوابع هسته * به تابع > یک تابع هسته می‌گوییم اگر: k(x,y) = (®(x) - ®(y)) جب 5:۲ (a1,@2) ‏جد‎ (21, 22,23) = (af, V2.2 22,23) (®(x)-B(y)) - (ei, V2 arwe,03)(y?, V2 yrye,y3)7 = (21,22) (y1.y2)")? (x-y)? =: k(x,y).

صفحه 28:
چند تابع هسته معروف _ _ 2 Gaussian RBF k(x,y) = exp ‏كاعد‎ ‎Polynomial ((x-y) +)" Sigmoidal —_ tanh(«(x - y) + 4) 1 ۷/۱ yl? +6? inv. multiquadric

صفحه 29:
استفاده ازتابع هسته * شرايط: (1- (6+ ((:*)ة ‎L(w,b, a) = 2۱۳۳ - a le‏ Yawn = =0 and w= Yous (x;) ‏را می‌توان به صورت زیر نوشت:‎ * n n 1 max Yai ‏و‎ 0 aaj yiyy K(xi, xj) i=1 ij=l subject to ‏يه‎ 0, = Lys on My n i=1 Ci = O-

صفحه 30:
استفاده ازتابع هسته (ادامه) * بتابراين داريم: i)) +b 1 Se yiei( B(x) ۰ B(x; t=1 So yiai k(x, x;) +b $1 sgn ( sgn (

صفحه 31:
Class 2 Class 1

صفحه 32:
خطای یادگیری غیرصفر

صفحه 33:
خطاى يادكيرى غير صفر (ادامه) * به جاى شرط: ...بح 4 ,1< (ط+ ((بع)ة ‎٠.‏ سان * داريم: ‎yi((w- ®(x;)) +b) >1-&, &>0, i=1,...,n‏

صفحه 34:
خطاى يادكيرى غير صفر (ادامه) * تابع مورد نظر براى كمينه سازى: ee ee ‏و2۳۳6 يج‎ * به طور معادل داریم: ‎n ie‏ (ر, ‎SS avagjyiys‏ 7 ره رو ‎max‏ ‎i=1 ij=l‏ ‎subject to 0<a;<C,i=1,...,n,‏ ‎VL, ain: = 0.‏

صفحه 35:
رابطه تعداد بردارپشتیبان و خطای تست 21/) 4.1) - Hed <Regias | Met ZA ool (#Support Vectors) ‏سس اس رايب‎ Rien {f) > (#of Train Vectors — 1)

صفحه 36:
حالت چند کلاسه * روش 5۷۷ برای حالت دو کلاسه * دو راه برای حالت چند کلاسه * استفاده از یک جداکننده برای هر کلاس از بقیه #نیاز به 0 جداکننده سرعت بیشتر 5 استفاده از یک جداکننده برای جدا کردن هر دو کلاس از هم ‎N(N-1)/2 4, 5ls™‏ جداکننده #دقت بیشتر

صفحه 37:
مجموعه 6180۸۲ 5۷۷۲۲ * تهیه شده توسط 5۲ * برای آزمایش تشخیص گفتار عادی (5ا600۳۵۳60) * صدای ضبط شده از پشت خط تلفن * ۲۶ گوینده (۱۵ مرد. ۱۱ زن) * برای هر گوینده ۱۰ تا ۱۵ ثانیه نمونه آموزشی و ۱۸ نمونه آزمایشی به طول متوسط ۵ ثانیه یک مجموعه دشوار: کیفیت پایین صدا به خاطر کیفیت پایین میکروفون و خط. عبور از خط تلفن و فیلتر شدن. نمونه آموزشی و آزمایشی کم

صفحه 38:
نمونه ای ازنتایج استفاده ازا5۷1۷ * تست بر روی مجموعه ‎Switchboard‏ ۰ ثانیه نمونه آموزشی: ۱۰۰۰ ضریب کپستروم * استفاده از مدل 5196 :0311/1/1 دقت * استفاده از یک جداکننده برای هر گوینده در برابر بقیه: Polynomial Degree 3 Avg. # Target SV 800 Avg. # Other SV 2000 Correct Identifications | 43% * استفاده از یک جداکننده برای هر جفت گوینده : ‎Polynomial Degree 2 | 8 | 4 | 5‏ Avg. % SV. 25% | 30% | 35% | 40% Correct Wdentifications | 51% | 55% [50% | 48%

صفحه 39:

سمینار درس بازشناسی گفتار سجاد شیرعلی شهرضا  ‏ ‏ ‏ ‏ ‏ ‏ ‏ تشخیص گوینده استخراج ویژگی برای تشخیص گوینده مسئله دسته‌بندی و جداسازی نمونه‌ها از روی ویژگی‌ها معیار مقایسه دسته‌بندی کننده‌ها دسته‌بندی کننده خطی پیدا کردن دسته‌بندی خطی بهینه استفاده از فضاهای باالتر و توابع هسته حالت خطای یادگیری غیر صفر  ‏ ‏ تفکیک گوینده های مختلف از یکدیگر استفاده از ویژگیهای صوتی برای تشخیص دو روش کلی: ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلها سعی در تفکیک گوینده های مختلف از یکدیگر  تعداد زیاد نمونه در صدای ذخیره شده ‏ نیاز به این دقت برای پخش صدا و بازسازی موج تغییر آهسته ویژگیهای صدا در طول زمان امکان نمایش و ذخیره یک پنجره (فریم) نسبتا طوالنی ( 10تا 25میلی ثانیه) با تعداد کمی ویژگی نمایش یک پنجره با 14ویژگی :کاهش ابعاد به نسبت 11.4 نیاز به تعریف و استخراج ویژگی ‏ ‏ ‏ ‏ حداقل 8کیلو هرتز 8 ،بیت برای هر نمونه ( 64کیلو بیت بر ثانیه)  اطالعات گوینده در طول موج بازه های کوتاه ‏ یکی رایج ترین ویژگیها Mel-warped Cepstra : ‏ استفاده از فیلتر melبر روی طیف به منظور تاکید کمتر بر روی فرکانس های باال ‏ استفاده از چند ضریب اول (معموال 14ضریب) ‏short-term spectrum  اطالعات موجود در یک پنجره 20میلی ثانیه ای تبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انسان  یادگرفتن مفاهیم از روی نمونه‌های آموزشی ساده‌ترین حالت :حالت دو کالسه ‏ فضای چند بعدی ‏ نمونه‌های مثبت نمونه‌های منفی نمونه‌ها :بردارهای عددی +1 -1  یک جواب ممکن  یک جواب ممکن دیگر  یک جواب ممکن دیگر  ‏ ‏ ‏ کدام جواب بهتر است؟ منظور از بهتر بودن جواب؟ نیاز به کمیت عددی یک معیار :خطای هر جواب  خطای دسته‌بندی نمونه‌های آموزشی ()Emperical Risk ‏l )Remp α  21l  yi  f (xi ,α ‏i 1 ‏ ‏ خطای دسته‌بندی کلیه داده‌ها مشکل اصلی )Rα 12 y  f (x,α) dP(x, y عدم دانستن تابع توزیع احتمال عدم امکان محاسبه R نیاز به تخمین R  ‏ ‏ ‏ ‏VC: Vapnik Chervonenkis ویژگی یک خانواده از توابع بیان کننده میزان انعطاف یک تابع در دسته‌بندی حاالت مختلف برای حالت دو کالسه :حداکثر تعداد نمونه‌های مختلف ()h که به ازای هر حالت از 2hبرای نمونه‌ها ،تابعی در خانواده باشد که تمامی نمونه‌ها را به درستی نشان دهد.  یک خط در فضای دو بعدی 3نقطه: ‏ 4نقطه: ‏ ‏h=3 ‏  یک تابع خطی در فضای dبعدی ()Rd ‏ دارای بعدی VCبرابر d+1است. یک ابر صفحه است Rα 12 y  f (x,α) dP(x, y) l Remp α  21l  yi  f (xi ,α) i 1 ) که رابطه زیر با احتمالVapnic 1995( ثابت شده است . برقرار است1       h log 2l  1  log / 4  h   Rα Remp α    l      دسته‌بندی کردن داده با استفاده از یک صفحه  ‏ هدف :انتخاب تابع خطی (ابر صفحه) بهینه نیاز به معیار بهینه بودن : SVM بیشتر کردن حداقل فاصله نمونه‌ها تا خط :KFD بیشتر کردن فاصله دسته‌ها و کمتر کردن پراکندگی دسته‌ها Class 2 Class 1 m  تابع مورد نظر: تشخیص درست تمامی نمونه‌ها: ‏ در فضای باالتر: ‏  رابطه بین بعد VCو اندازه بردار :w ‏ از طرفی داریم: ‏ پس برای بیشینه کردن قدرت تعمیم باید: ‏    ‏ h log 2l  1  log / 4  ‏h ‏ ‏Rα Remp α   ‏ ‏l ‏ ‏ ‏ ‏  هدف کمینه یا بیشینه کردن تابع y) 0باf (x, توجه به شرط است (x, y) 0. می‌توان تابع زیر را تعریف کرد: ‏ و قرار داد: ‏ )h(x, y)  f (x, y)   (x, y )h(x, y )h(x, y )h(x, y ‏0, ‏0, ‏0 ‏x ‏y ‏  با استفاده از ضرایب الگرانژ می‌توان نوشت: ‏ که در نقطه بهینه داریم: ‏ و یا معادال داریم:  ‏ در فضاهای باالتر ،دسته‌بندی کننده خطی دارای بعد VC بیشتری است. بنابراین می‌تواند توابع پیچیده‌تر را تشخیص دهد. ) ( x1, x2 )  ( x12, 2x1x2, x22  به تابع kیک تابع هسته می‌گوییم اگر: ‏ مثال:  شرایط: ‏ را می‌توان به صورت زیر نوشت:  بنابراین داریم: Class 2 8=0.6 10=0 7=0 5=0 1=0.8 4=0 6=1.4 9=0 Class 1 2=0 3=0 Class 2 Class 1  به جای شرط: ‏ داریم:  تابع مورد نظر برای کمینه سازی: ‏ به طور معادل داریم:      h log 2l  1  log / 4  h   Rα Remp α    l      روش SVMبرای حالت دو کالسه دو راه برای حالت چند کالسه استفاده از یک جداکننده برای هر کالس از بقیه ‏ استفاده از یک جداکننده برای جدا کردن هر دو کالس از هم ‏ ‏ نیاز به nجداکننده سرعت بیشتر نیاز به n(n-1)/2جداکننده دقت بیشتر  ‏ ‏ ‏ ‏ ‏ تهیه شده توسط NIST برای آزمایش تشخیص گفتار عادی ()spontaneous صدای ضبط شده از پشت خط تلفن 26گوینده ( 15مرد 11 ،زن) برای هر گوینده 10تا 15ثانیه نمونه آموزشی و 18نمونه آزمایشی به طول متوسط 5ثانیه یک مجموعه دشوار :کیفیت پایین صدا به خاطر کیفیت پایین میکروفون و خط ،عبور از خط تلفن و فیلتر شدن ،نمونه آموزشی و آزمایشی کم  تست بر روی مجموعه Switchboard 10ثانیه نمونه آموزشی 1000 :ضریب کپستروم استفاده از مدل GMM: 51%دقت استفاده از یک جداکننده برای هر گوینده در برابر بقیه: ‏ استفاده از یک جداکننده برای هر جفت گوینده : ‏ ‏ ‏

51,000 تومان