صفحه 1:
۱
ماشين برداريشتيبان (/51/1)
براى تشخيص كوبنده
سمينار درس بازشناسى كفتار
0
صفحه 2:
* استخراج ویژگی برای تشخیص گوینده
* مسئله دستهبندی و جداسازی نمونهها از روی ویژگیها
* معیار مقایسه دستهبندی کنندهها
* دستهبندی کننده خطی
* پیدا کردن دستهبندی خطی بهینه
* استفاده از فضاهای بالاتر و توابع هسته
* حالت خطاى ياد كيرى غير صفر
صفحه 3:
تشخیصر گوینده
* تفکیک گوینده های مختلف از یکدیگر
* استفاده از ویژگیهای صوتی برای تشخیص
* دو روش کلی:
* ساخت مدل برای هر گوینده و تطبیق دادن نمونه جدید با مدلها
سعی در تفکیک گوینده های مختلف از یکدیگر
صفحه 4:
استخراج ویژگ برای کاهش ابعاد
* تعداد زیاد نمونه در صدای ذخیره شده
" حداقل 8 كيلو هرتز. 4 بیت برای هر نمونه (۶۴ کیلو بیت بر ثانیه)
* نياز به اين دقت برای پخش صدا و بازسازی موج
تغییر آهسته ویژگیهای صدا در طول زمان
* امکان نمایش و ذخیره یک پنجره (فریم) نسبتا طولانی (۱۰ تا
۵ میلی انیه) با تعداد کمی ویژگی
* نمایش یک پنجره با ۱۴ ویژگی: کاهش ابعاد به نسبت ۱۱.۴
* نیاز به تعریف و استخراج ویژگی
صفحه 5:
استخراج ویژگ برای تشخیص گوینده
* اطلاعات گوینده در طول موج بازه های کوتاه
short-term spectrum ®
اطلاعات موجود در یک پنجره ۲۰ میلی ثانیه ای
* یکی رایج ترین ویزگیها : 660573 ۲۱۵۱-۸۷۵۲۵۵۵
cepstrum (frame) = FFT? (log IFFT (frame)l)
* استفاده از فیلتر ۲06 بر روی طیف به منظور تاکید کمتر بر
روی فرکانس های بالا
"" تبدیل غیر خطی الهام گرفته شده از روی سیستم شنوایی انسان
* استفاده از چند ضریب اول (معمولا ۱۴ ضریب)
صفحه 6:
MEL-WARPED
CEPSTRA
صفحه 7:
دستهبندی وجداسازی نمونهها ازروی ویژگها
* یادگرفتن مفاهیم از روی نمونههای آموزشی
* سادهترین حالت: حالت دو کلاسه
* نمونههای مثبت :
# نمونههای منفی ae
* فضای چند بعدی* , ٠ 3
# نمونهها: بردارهای عددی
صفحه 8:
مقدمه (ادامه)
* یک جواب ممکن
صفحه 9:
مقدمه (ادامه)
* یک جواب ممکن دیگر
صفحه 10:
مقدمه (ادامه)
* یک جواب ممکن دیگر
صفحه 11:
معیارمقایسه
کدام جواب بهتر است؟
* منظور از بهتر بودن جواب؟
* نیاز به کمیت عددی
یک معیار: خطای هر جواب
رمخ
ار
۰
58 دم es
9056
مش 0 006
Bon OS 50
صفحه 12:
خطای روش
* خطای دستهبندی نمونههای آموزشی (Emperical Risk)
1
Rp) =a di ۶,0۵
* خطای دستهبندی کلیه دادهها
* مشکل اصلی ( £(%o|drx, دم
# عدم دانستن تابع توزیع احتمال
عدم امکان محاسبه 8
# نیاز به تخمین ٩
Ra) = fi
صفحه 13:
بعد ۷
VC: Vapnik Chervonenkis °
* ويزكى يك خانواده از توابع
* بیان کننده میزان انعطاف یک تابع در دستهبندی حالات
* برای حالت دو کلاسه: حداکثر تعداد نمونههای مختلف (0)
که به ازای هر حالت از 2 برای نمونهها. تابعی در خانواده
باشد که تمامی نمونهها را به درستی نشان دهد.
صفحه 14:
مثال بعد VE
* یک خط در فضای دو بعدی
ال 1
صفحه 15:
بعد م۷ توابع خطی
* یک تابع خطی در فضای 0 بعدی (RY)
یک ابر صفحه است
* دارای بعدی ۷6 برایر 01 است.
صفحه 16:
2( بك |(ه ب 1 2 Ra) = fi
مرح - | 43= ری
* ثابت شده است (1995 ۷۵۵۳6 که له زیر با احتمال
1-7 _ برقرار است.
logl/4) - [1+ ل 2 آوم1 از
م
ل )ري > له
صفحه 17:
Expected Risk
Confidence _
۱ Empirical Risk
small Complexity of Function Set‘ #"8¢
صفحه 18:
دستهبندی کننده خطی
دستهبندی کردن داده با استفاده از یک صفحه
f(x) =(w-x)+b
صفحه 19:
دستهبندى خطى ببينه
* هدف: انتخاب تابع خطى (ابر صفحه) بهينه
* نياز به معيار بهينه بودن 000
*1/ا/ا5 : بيشتر كردزجدلق[فاصله نمونهها تا
۴ بسیشتر کردنف اصله دستهه و کسمتر کردزپسراکندگی
دستهها
صفحه 20:
KFD : KERNEL FISHER DISCRIMINANT
WPCA
صفحه 21:
SVM: SUPPORT VECTOR MACHINES
o
Class 1
صفحه 22:
بيدا گردن دستهبندی گننده خطی
* تابع مورد نظر: )+ y = sign ((w - x)
* تشخیص درست تمامی نمونهها:
yi((w-x;) +b) >1, i=1,...,0
* در فضای بالاتر:
بح ب1< (9 + ((:56 ۰ ۷:))۳
صفحه 23:
پیدا کردن دستهبندی کننده خطی (ادامه)
* رابطه بین بعد ۷۲ و اندازه بردار ۷۷
۸ > ۳۳| مه 1+ ۸۳۴ >
Hogl 24) +1) login از طرقى داديم: [ به *
ABS arte
Ra) <R,,(a)+
يس براى بيشينه كردن قدرت تعمیم بای 4
min =||w||
wh 2
صفحه 24:
ضرایب لاگرانژ
* هدف كمينه يا بيشينه كردن تابع 0- (1 #لُوجه به شرط
20 )۵
* میتوان تابع زیر را تعریف کرد:
2 )وه + (ز ۶6 < ( دا
* و قرار داد:
01۳0 y) -0 OX y) -0 OHX y) -0
ox "ay 0
صفحه 25:
استفاده ازضرایپ LST
* با استفاده از ضرایب لاگرانژ میتوان نوشت:
Bw? = J aa(ya( (ww = H(3%)) +8) = 1) = يه سيط
OL 0 ۰ 01
که در نقطه بهینه داریم: ?7 and aw 0 و
* ويا معادلا داریم:
n 4
Saini =0 and w= YS ainiF(x:)
i=l i=l
صفحه 26:
استفاده ازفضاهای بالاتر
* در فضاهای بالاتر. دستهبندی کننده خطی دارای بعد ۷
پیشتری است.
* بنابراین میتواند توابع پیچیدهتر را تشخیص دهد.
کر
( ید ردب 2/درد) << (ود رد)
صفحه 27:
استفاده ازتوابع هسته
* به تابع > یک تابع هسته میگوییم اگر:
k(x,y) = (®(x) - ®(y))
جب 5:۲
(a1,@2) جد (21, 22,23) = (af, V2.2 22,23)
(®(x)-B(y)) - (ei, V2 arwe,03)(y?, V2 yrye,y3)7
= (21,22) (y1.y2)")?
(x-y)?
=: k(x,y).
صفحه 28:
چند تابع هسته معروف
_ _ 2
Gaussian RBF k(x,y) = exp كاعد
Polynomial ((x-y) +)"
Sigmoidal —_ tanh(«(x - y) + 4)
1
۷/۱ yl? +6?
inv. multiquadric
صفحه 29:
استفاده ازتابع هسته
* شرايط: (1- (6+ ((:*)ة L(w,b, a) = 2۱۳۳ - a le
Yawn = =0 and w= Yous (x;)
را میتوان به صورت زیر نوشت: *
n n
1
max Yai و 0 aaj yiyy K(xi, xj)
i=1 ij=l
subject to يه 0, = Lys on My
n
i=1 Ci = O-
صفحه 30:
استفاده ازتابع هسته (ادامه)
* بتابراين داريم:
i)) +b
1
Se yiei( B(x) ۰ B(x;
t=1
So yiai k(x, x;) +b
$1
sgn (
sgn (
صفحه 31:
Class 2
Class 1
صفحه 32:
خطای یادگیری غیرصفر
صفحه 33:
خطاى يادكيرى غير صفر (ادامه)
* به جاى شرط: ...بح 4 ,1< (ط+ ((بع)ة ٠. سان
* داريم:
yi((w- ®(x;)) +b) >1-&, &>0, i=1,...,n
صفحه 34:
خطاى يادكيرى غير صفر (ادامه)
* تابع مورد نظر براى كمينه سازى:
ee
ee
و2۳۳6 يج
* به طور معادل داریم:
n ie
(ر, SS avagjyiys 7 ره رو max
i=1 ij=l
subject to 0<a;<C,i=1,...,n,
VL, ain: = 0.
صفحه 35:
رابطه تعداد بردارپشتیبان و خطای تست
21/) 4.1) -
Hed <Regias | Met ZA ool
(#Support Vectors)
سس اس رايب
Rien {f) > (#of Train Vectors — 1)
صفحه 36:
حالت چند کلاسه
* روش 5۷۷ برای حالت دو کلاسه
* دو راه برای حالت چند کلاسه
* استفاده از یک جداکننده برای هر کلاس از بقیه
#نیاز به 0 جداکننده
سرعت بیشتر
5 استفاده از یک جداکننده برای جدا کردن هر دو کلاس از هم
N(N-1)/2 4, 5ls™ جداکننده
#دقت بیشتر
صفحه 37:
مجموعه 6180۸۲ 5۷۷۲۲
* تهیه شده توسط 5۲
* برای آزمایش تشخیص گفتار عادی (5ا600۳۵۳60)
* صدای ضبط شده از پشت خط تلفن
* ۲۶ گوینده (۱۵ مرد. ۱۱ زن)
* برای هر گوینده ۱۰ تا ۱۵ ثانیه نمونه آموزشی و ۱۸ نمونه
آزمایشی به طول متوسط ۵ ثانیه
یک مجموعه دشوار: کیفیت پایین صدا به خاطر کیفیت پایین
میکروفون و خط. عبور از خط تلفن و فیلتر شدن. نمونه
آموزشی و آزمایشی کم
صفحه 38:
نمونه ای ازنتایج استفاده ازا5۷1۷
* تست بر روی مجموعه Switchboard
۰ ثانیه نمونه آموزشی: ۱۰۰۰ ضریب کپستروم
* استفاده از مدل 5196 :0311/1/1 دقت
* استفاده از یک جداکننده برای هر گوینده در برابر بقیه:
Polynomial Degree 3
Avg. # Target SV 800
Avg. # Other SV 2000
Correct Identifications | 43%
* استفاده از یک جداکننده برای هر جفت گوینده :
Polynomial Degree 2 | 8 | 4 | 5
Avg. % SV. 25% | 30% | 35% | 40%
Correct Wdentifications | 51% | 55% [50% | 48%
صفحه 39: