صفحه 1:
به نام خدا
م
8
بررسى روش انسان در تشخيص صحبت و
شبیهسازی آن
سید کمالالدین غیاثی شیرازی
دانشکذة مهندشی کامپیوتر ذانشگا ضتفتی شریف
28/10/1383
صفحه 2:
مظالب
لل ا
* شناخت انسان و سیگتال صحب-
— سیستم استخراج ویژگی
9 سیستم بازشناسی
@ آزمایشها
صفحه 3:
5
بررسی روش انسان در تشخ
صفحه 4:
محدودیتهایی که روشهای موجود ایجاد می کنند
غير قابل تفسير
مبتنی بر مدل (معمولا (HMM
وابسته به اطلاعات زبانی
بدون قابلیت کشف صداهای جدید
مبتنی بر نظریه احتمال هستند که شواهد زیادی نشان میدهند که
انسان بر مبنای این نظریه کار نمیکند
پیوند غیر طبیعی با سطوح بالاتر زبانی مانند کلمه و گرامر و نیز
مبتنی بودن بر مدل زبانی
خلاصه: همه مشکلات از بالا به پایین حل میشوند (ما راه حل
را کشف میکنیم و به کامپیوتر میدهیم)
صفحه 5:
توليد ابزار
© دستکاری سیگنال در فرکاشن ۵1161۱
8 دستکاری سیگنال در فضای طیفنگار
۴ دستکاری سیگنال در فضای بانک فیلتر
صفحه 6:
ویژگیهای سیگنال صحبت؟
0
"! فازی
۴ غیر دقیق
۴ اهمیت ویژگیها با انرژی آنها متناسب است
7 مبتنی بر نظریه امکان
صفحه 7:
سیگنال صحبت فاژی است
در مثال بعد میبینیم که حرف «ی» میتواند بهجای حرف «ن»
به کار رود.
به عبارت دیگر «ی» و «ن» بودن مفهومی فازی است که دارای
اشتراک ذاتی است.
نکته: ولی میتوان (امکان دارد) «ی» را به عنوان «ن» پذیرفت.
س: احتمال اینکه کسی «ی» را مانند «ن» بگوید چقدر است؟
صفحه 8:
هتسهآ ]هرهز
Bee eee 0:01.129
+ “N” + “A*
صفحه 9:
۱۳۳۱ ۱۳۰۱۵۳۹۳۵ Tenet |
صفحه 10:
لسع ۱۳۰۳۳۵۵ ۱۰۳۵۹۵۵ ۰۱۳۵۱ ۳۲۰۳۱۳۱۳۹ ۱۳5
۳
صفحه 11:
0 یگنال صحبت غير دقیق aul
۴ یعنی ما نسبت به مقدار ویژگیها خیلی حساس نیستیم.
يعنى ما نسيت ب 2
صفحه 12:
3
ei 0:00.000
الت العاهایه]
صفحه 13:
صفحه 14:
سای
صفحه 15:
ویژگیهای پر انرژی مهمترند (مثال ۱)
صفحه 16:
Tis Is cea اك هاه
Eee isa
"M” + “A” oN” + “A!
صفحه 17:
سوه اه الاح سا ]رل
0:01.324
A" “MM” + “AS 4 ”هه
صفحه 18:
ویژگیهای پر انرژی مهمترند (مثال ۲)
صفحه 19:
| [>|] i i 3
Lis] | 8 ۱۳۳3
صفحه 20:
صفحه 21:
anit dina Cal pee ييل 5 مواروي كه جترى
وجود دارد) . آن را آنطور كه مىخواهيم تفسير مى كنيم.
' ما آنجه را كه دوست داريم مىشنويم نه آنجه را كه هست.
صفحه 22:
§ بهجای ) از نویز سفید
استفاده شده است.
سح سح _——
Con Az
صفحه 23:
تفاسیر متداول از فازی که مد نظر ما نیست
۴ افزانش سعرعت
۴ سیستمهای مبتنی بر قانون
عملگرهای قایل تنظیم
@ |,:
اینها درست هستند اما روح فازی نیستند.
صفحه 24:
مقاهیم اساسی فازی
تنظیم رابطه بين درستى گزاره و دقت گزاره
قد من ۱۸۳۸۹۹۸۹۸۷۶۷ سانتیمتر است
قد من بين ۱.۷۰ تا ۲ متر است
خلاصه: کاهش دقت و افزایش درستی.
| طمینان | ستحکام و 5 قطعیت
صفحه 25:
مشکل مبهم بودن همه چیز
SI همهچیز دارای ابهام است پس ما چگونه میتوانیم صحبت بدون معنی را
۰ تشخیص دهیم؟
تشخیص صحبت بدون معنی,با وجود نویز سفید. به همراه صداهای ناشناخته
(مثل بوق ماشین), با قطعیت؟
کدامیک را انتخاب میکنید؟
تاسی را بياندازيم و اگر ۶ نیامد ۶۰ میلیون تومان.
امید ریاضی - ۵۰
قطعا ۴۰ میلیون تومان
اميد رياضى - ۴۰
انسان قطعیت را دوست دارد (+ مثالی از تفاوت احتمال با تفکر انسان).
صفحه 26:
تفسیر ما از فازی بودن سیگنال صحبت
واجها مجموعههایی فازی هستند.
اما در سیگنال صحبت بخشهایی هستند که آنها را شیء مینامیم
و اين اشياء با قطعیت قابل تمیز هستند.(لزام)
همچنین اشیائی هستند که تفاوت کمی با هم دارند مانند «م» و
«ن» که در آنها دقیق نمیشویم. (امکان)
«م» و «ن» مجموعههایی فازی هستند (امکان) ولی گذر آنها به
واج «آ» كاملا متمایز است (الزام).
صفحه 27:
نظریه امکان
هدف: تشخیص صحبت ممکن. آنچه سیستمهای کنونی (از جمله
سیستم من) تشخیص میدهند غیر ممکن است چه برسد به محتمل.
احتمال: محتملترین مدلی, که این سیگنال را تولید کزده است:
امکان: اين مشاهده توسط کدام مدلها قابل تولید است.
خلاصه نظریه امکان:
امکان - میزان شدنی بودن ۸
امکان /- میزان شدنی بودن ۸۵۴
(2055)8 و (2055)86 مين ولنند هر مقدار دلخولهىدلشته
باشند
صفحه 28:
استفاده از نظربه امکان برای چهل و کشف
A Possi(A‘) -0 Poss(A)-1
(
AC Poss(A‘) -1 Poss(A)-0
نمیهلنم Poss(A‘) -1 Poss(A)-1
نویز-دشی جدید Poss(A‘) -0 Poss(A)-0
در نظریه احتمال که 1-(۴)۵:(:۳)۵ نمیدانم و کشف را نداریم.
نکته: نمیدانم و کشف نویز همان چیزهایی هستند که به ما اجازه
میدهند با قطعیت حرف بزنیم.
وقتی کسی فقط راجع به چیزهایی که میداند حرف میزند صحبتش
قابل اعتمادتر است.
صفحه 29:
استخراج ویژگیها در 2001۳05 تا چیزی که بتوان با قطعیت راجع
به آن حرف زد وجود داشته باشد.
مبتنی بر ویژگیهای شنیداری و بخشبندی بر اساس اشیاء
یک دلیل برای اینکه توانایی صحبت کردن پس از توانایی شنیدن
شکل میگیرد این است که کودکان به زبان خودشان حرف
میزنند ولی به زبان خودشان نمیشنوند.
دارای دقتی مشابه انسان نسبت به مقدار ویژگیها
دارای استحکام بیشتر در مقابل نویز
صفحه 30:
مطلوبات Paso بازشناسی
مبتنی بر مدل نبودن
مبتنی بر نظریه امکان
قابلیت کشف اشیاء جدید
چون صحبت را خوب میشناسیم اشیاء جدید را نیز تشخیص
مى دهيم.
دارای پیچیدگی محاسباتی کمتر به علت استفاده از عملگرهای
۷ و Min
هدف: قطعیت در تشخیص صحبت.
صفحه 31:
س: چگونه با مدلی ساده میخواهید تنوع صحبت
شرت
را پوشش دهید؟
تطبیق در حین تشخیص. تغییر دادن پارامترها در جهت رسیدن
به یک حالت ممکن و سپس افزايش مقدار امکان. چون حالات
ممکن کم هستند. رسیدن به یکی از حالات ممکن خود گواه
درستی راه است. (مشابه روش 1 در نظریه احتمال)
استفاده از چند مدل ساده. برای هر گونه از صحبت یک مدل
ساده در نظر میگیریم.
خلاصه: نمونه را تغییر میدهیم تا شبیه یکی از مدلها شود.
صفحه 32:
روش پیشنهادی برای سیستم تشخیص
صحس
ااا 5
متا ترمال كردت دام
yt le bb EOF sag hl ام که
ار Se ne
ايده اصلى: تغيير بارامترها در جهت شنیدن یک صدای ممکن
صفحه 33:
صفحه 34:
اهداف سیستم بخشبندی
مبتنی بر مفهوم شیء که بدون اطلاعات زبانی به دست میآید.
در این صورت میتوان توقع داشت که اشیاء بزرگتری مانند
كلمة بو جملة بر اساسن اشباء کوجکتر شکل بگیرند.
رابطه خوب با نوعى از نمايش دانش به نام كراف مفهومى كه از
انسان الهام كرفته است. در اين روش اشياء جديد با ارتباط برقرار
كردن بین اشیاء قبلی ساخته میشوند.
استخراج ویژگیها در زمان و فر کانس (200۳۳95)
قابل تفسیر بودن. در اینصورت میتوان از اطلاعات انسان در
خواندن طیفنگار استفاده کرد.
صفحه 35:
روش بخشبندی و استخراج ویژگی 0139۳1
محاسبه انرژی باندهای فیلتر در قابها.
تقریب زدن خط سیر انرژی در هر باند فیلتر با خط.
به دست آوردن اشیاء. با استفاده از تقریب خطی سیگنال خط
سيره
بخش بندى سيكنال صحبت.
استخراج ويزكى در هر بخش.
]در مرحله آموزش[ به دست آوردن صدکها برای هر ویژگی.. سس
بیان مقدار هر ویژگی با عددی صحیح بین ۰ تا ۱۰۰.
صفحه 36:
خط سیر انرژی در باند فیلتر ۶ام
اساسا
صفحه 37:
صفحه 38:
صفحه 39:
fee
"ذا شیی بزرگترین شکل محدب در خط سیر است.
۴ ایده اصلی: شکلهای محدب در سیگنال انرژی بیانگر اراده گوینده
در تولید انرژی در زمان مشخصی هستند.
اطمینان از ظهور شیء
عدم تولید انرژی
صفحه 40:
بخشبندی بر اساس کوچکترین اشیاء
صفحه 41:
ویژگیهای بخشبندی
پس از بخشبندی یک مجموعه کاملا مرتب از بازههای زمانی
داریم که دارای همپوشانی هستند.
اولین الگوریتم بخشبندی است که بخشها دارای همپوشانی
هستند (تا آنجا که ما دیدهایم),
قازل اتفسير اسك
كاهش شديد تعداد بردارهاى ويزكى نسبت به سيستمهاى مبتنى
بو قاب. ذر.مثال قبل ٠١6 قاب به ؟ بش ساذه شذه استد
داراى تفکیک مناسب در زمان و فر کانس
صفحه 42:
استخراج ویژگی
به هرحال یک بازه زمانی به عنوان یک بخش داده میشود.
خط سیرهای انرژی را با این بازه زمانی قطع میدهیم و حاصل
را با یک یا دو خط تقریب میزنیم.
ویژگی اول همان طول بخش است.
برای هر باند فیلتر ویژگیهای زیر را حساب میکنیم:
بیشینه انرژی
میزان تقعر یا تحدب
شیب خط
J
صفحه 43:
استخراج ویژگی
بدین ترتیب ٩۷-۱+۴*۲۴ ویژگی استخراج میشود.
اگر بخواهیم با ۸ کار کنیم ۴ ویژگی را با 1١١ & DCT
عدد کاهش میدهیم وبه ۴۹ ویژگی میرسیم.
در هنگام کار با پایگاه داده ۵۱1۲0۲۵2 از ۱۸ باند فیلتر استفاده
میکنیم. در نتیجه ۱۰۴*۹٩ - ۲۷ ویژگی خواهیم داشت.
اکنون دیگر ویژگیها صرفا فر کانسی نیستند. ویژگیها اکنون
ماهیت زمانی-فر کانسی دارند.
با توجه به کارهای دیگران توقع داریم که ویژگیهای زمانی-
فر کانسی مقاومتر باشند.
صفحه 44:
کوانته کردن ویژگیها بر حسب صدکها
با توجه به آماری که از روی داده آموزشی به دست میآید. هر
مقدار ویژگی به عددی صحیح بین ۰ تا ۱۰۰ نگاشته میشود.
مزایا:
حافظه کمتر در ذخیره مقدار ویژگی. البته در مجموع حافظه
بیشتری مصرف میشود.
عدم نیاز به مدلی برای نشان دادن فضای پیوسته. بدین ترتیب
آمکان تولید سیستم دادهمحور فراهم میشود.
رهایی از مفهوم مخلوط که در روشهای مبتنی بر مدل باید برای
رفع ضعفهای مدل فرض شده (مانند تابع نرمال) استفاده شود.
صفحه 45:
مقایسه ۷1۳/6 و ۳۲5۳۲ توسط سیستم ک ۳11
499۶
062600
999
2209
22000
60.49
985
صفحه 46:
نویزهای نوع ۱ و ۲
Debby, Our, revtarect, 6۳
۳00
99.00
90۹6
ممه
5009
مسا
۵806
909
696.6
موه
206
POO
99.08
98.89
9099
و9
99
Obury, Cxhbava, (
COOGEE
09
e988
09
66.0
98.98
640
0
50
نتایج تنها بر روی نویزهایی که شیء جدید اضافه نمیکنند بالا رفت.
مقصر؟ سیستم استخراج ویژگی یا سیستم بازشناسی
نکته: به نظر میرسد که بخش اعظم تفاوت ۲ با ۸۹٩ در بهینه نبودن
— در بخش پیشپردازش است.
صفحه 47:
مقایسه 085۳778 با ۷1۳706[ در تشخیص
کلمه
مزایای ]085۳
مقاومت بیشتر در مقابل نویز
قابل تفسیر بودن ویژگیها
کاهش تعداد بردارهای ویژگی به حداقل یک پنجم تعداد قابها
در MFCC
سریعتر برای سیستم بازشناسی
مزایای MFCC
پیادهسازی سادهتر (بویژه از نظر سختافزاری)
نتیجه بالاتر در محیط کاملا تمیز
صفحه 48:
صفحه 49:
مساله بازشناسی از دید گاه عملگرهای فازی
T
POM) =) ays] [Be (Axo see
XxX اج
7 7
۱ م2 (:0) 2[ ]1 مت M) ]20
1
2 TH(O|M) =max minb,.(0)}
صفحه 50:
P(M) کجاسگ
احتمال:
argnaxA(M|O) =argnaxP(O| M) -A.M)
M M
امکان:
argnaxll(M|O) =argnaxmin1(O|M),11(M)
M M
VMe phonemesl(M) 52 ۱
=argnax!l(O| M) 0 )موجه
صفحه 51:
3
9 5 15 oe
ad
38
= 3 الع 4 4 4 0
صفحه 52:
اله اله له انهاه
۲- حذف نويز
s
0 0
د مد مد
5 5 8 8858 5 58 5 58
a Us
neo atx
صفحه 53:
4
a oo 3 5 9
3
a
3
با 2 ox ۳
, 9
انه لت ل ل < ل 6 ۵ عد ايه عد عد 5 مد مد مد مد 15
5۲ EE DS
9 9 90 0 0 0 مد مد تقد ند مد تقد ند تقد مد
19
20
21
a Ut 0
ch
£
0 OC DH eed nue
ms =O)
2# * 1 1 1 1 1113
یتست
صفحه 54:
52 *
ee « د ه أأء
3
9
2
3
40 4 0 0 © او 5 wx x
, 9
انه لت ل ل < ل 6 ۵ عد ايه عد عد 5 مد مد مد مد 15
5۲ EE DS
9 9 90 0 0 0 مد مد تقد ند مد تقد ند تقد مد
19
20
21
0
عد
=
a Ut 0
جات ال atu 9
£
0 OC DH eed nue
ms =O)
2# * 1 1 1 1 1113
۷
5 5 تو و وضو
15
13
17
صفحه 55:
توزیع امکان مثبت مخلوطی از 26
صفحه 56:
توزیع امکان منفی مخلوطی از 26
صفحه 57:
صفحه 58:
محاسبه شباهت اولیه (-۲01
(discriminative
- (۷< ۷) ۲ ] [- لها ”ل .02
ial
Sinn (Vy =v)'= Y 1001 (y=)
iA
+1 AW =v)
iA
در اين مرحله به دنبال تابعی هستیم که میزان شیاهت بردار ویژگی را با
Henle ceed oo nals slg IMM گروه بیان نماید. در
میشود. غهلگر ۲۲۱۱۳ براق اين كار متاسب نيست.
اگر ۲1)0|۸(>۲ آنگاه 0 شبیه به ۸۵ نیست.
صفحه 59:
مقایسه عملگرهای مختلف برای تر کیب ویژگیها
Table J, Syllable classification accuracy for several aggregation methods
Method) MAX | MIN {MEAN} WT} MLP } FUZZY
ANG NT.
صفحه 60:
محاسبه شباهت ثانویه
(Discriminative)
M(OJA)>T SI
=v) ۲۷), 0.1+11 بت ۲ 00007
Ye ee — (۸ ۳ 1
SimilarityO, 2 01+ 11 ,)۲ <۲(
(17- /1), 11 +01 2
imilarityO, A) =
SimilarityO, 2 01717
خلاصه: به تفاوتهای بین مدل مثبت و منفی اهمیت بیشتری میدهیم.
٩ در مقابل ۰.۷ کماهمیتتر از ۰.۳ در مقابل ۰۰۱ است.
صفحه 61:
محاسبه شباهت بردار ویژگی 0 به A els
اگر 51۳۱۱۱۵۲۱۲۷۰>5۱۳۱۱۱۵۲۱۳۷ آنگاه ۵ به ۸۵ شبیه نیست.
در غير اين صورت داریم:
لست تت ل اه
SimilarityO, A) + SimilaritVO, A)
مقادیر شباهت توسط اندازهگیری امکانی اصلاح plas در نهایت
شده قابل تفسیر میشوند.
صفحه 62:
A درس سوه
“XK wt fl)
OGL PI) >
OG oot M1)
(Vint سح
QC» HN) >
(te wt KY)
Mew
صفحه 63:
rocker OP He
اشیاء با ۴ نام معکن سس
اشیاء و نام گروه
مربوط به آنها
فر آیند آموزش
عم مس هه
الس میت لالد
1
در اين مرحله مقدار عددى
امكان نيز داراى معنی میشود.
( له Or tee هي
> لاس بجع
سه 2ه
Oinbution رماس سي
|
Oeyaive سه
Coenbahiy Orinbuion
لاس ا
station
|
Or kovw
فا دا مسق
صفحه 64:
تعیین امکان مثبت برای هر واحد آوایی-شنوایی
فرض کنیم نمونههای واحد آوایی-شنوایی ۸ را میشناسیم.
أ - يكواز ويزكيها
Ves LG yp gore =]
Na(i,j) ب-ولبر تعداد دفعاتولسکه ویژگی| مقدار را
NG)
1,0.) “SENG
4
صفحه 65:
تعیین امکان منفی برای هر واحد آواتی شنوایی
فرض کنیم (۳ را داریم. از روی آن نمونههای واحدهای
آوایی-شنوایی دیگر را که شبیه ۸ هستند را میشناسیم.
- یکیاز ویژگیما
[ - عدعبین» تا۱۰۰
(ز,أ)م_] بولبر تعداد دفعاتیلستکه در یکواز نمونههلیی
که به اشتباه لمکان/ بودنآنها ب الالسنهیژگی| مقدار [ را
گرفته لست M,,(i,j)
“mak, GD) یل
صفحه 66:
صفحه 67:
۴- آزمایشها
کلمه (تشخیص اعداد انگلیسی بر روی دادگان ۵:۲۵۲۵2)
مقایسه )۱۳ و 0851 با سيستم بازشناسی ۲۱۲1
واج (تشخیص واجهای زبان فارسی بر روی دادگان فارسدات)
مقایسه ۱۷۱۳ با سیستم بازشناسی ما بر روی ویژگیهای
mfcc
مقایسه ۲۱۱۷۱ با سیستم بازشناسی ما 5
eee با سیستم بازشناسی ما برروی ویژگیهای
مقایسه ۲۱۱ با سیستم بازشناسی ما در حضور اشیاء ناشناخته
صفحه 68:
مقایسه ۷1۳/6 و ۳۲5۳۲ توسط سیستم ک ۳11
499۶
062600
999
2209
22000
60.49
985
صفحه 69:
تشخیص واج بر روی لهجه تهرانی فارسدات
میل مخفی مارکوف
۶۶
YYZ
7
سيستم بازشناسى
امکانی
۳۹۳۳
۳۶
۳۶۸
MFCC
OBSFE
۴ به هملد 1۱۰۰
نویز
صفحه 70:
بررسی تأثیر سادهسازی ها در تشخیص کلمه
تق زدن با خط
/ع/دوة جحلب ۹۷.۱۱ كريب 2
GAY, ۸ كوانته كردن به ٠٠١ مقدار
صفحه 71:
بررسی تأثیر سادهسازی ها در تشخیص واج
۶.1
FOr
مح 2۱/۸
ی ۶۷
تقریب زدن با خط
کوانته کردن به ۱۰۰ مقدار
صفحه 72:
نتايج از دید گاه فرار از محدودیتها و شناخت بهتر
۴ استخراج ویژگیها در قاب
۴ فضای ویژگیهای پیوسته
۳ دقت بالا در مقدار ویژگیها
۳ نظریه احتمال
۴ مبتنی بر مدل بودن
۴ + قابل تفسیر بودن
۴ نتایج نیز برای ادامه کار امیدبخش هستند.
صفحه 73:
نتایج از دید گاه مشابهت به روش انسان
استخراج ویژگی در زمان-فر کانس که استحکام را بالا میبرد.
کار با مفهوم شیء که از اطلاعات زبانی مستقل است.
مبتنی بر مدل نبودن
استفاده از نظریه امکان که با توجه به آزمایشهای ما برای
تشخیص صحبت طبیعیتر است.
دقتی در حد ۱۰۰ سطح. آزمایشهای ما نشان میدهد که
انسانها نیز به جزئیاتی بیش از این حساس نیستند.
صفحه 74:
با تشکر از
۴ دکتر باقری و دکتر رضویزاده بخاطر تشویقهاء راهنماییها و
انتقال تجربیات گرانقدرشان
۴ دکتر ثامتی بخاطر آشنا کردن من با روشهای متداول تشخیص
صحبت وذر اختیار گذاشتن تمام امکاناقشان و صبر زیادشان
۴ دوستانم در شر کت عصر گویش
| و شما بخاطر حضورتان.
صفحه 75:
مراجع اصلی نظریههای عدم قطعیت
Zadeh L. A., Fuzzy sets as a basis for a theory of
possibility. Fuzzy Sets and Systems, 1(1), 3-28. 1978.
Dubois D., Prade H., Possibility theory. New York,
London. 1988.
Shafer G., A Mathematical Theory Of Evidence,
Princeton University Press, Princeton, NJ, 1976.
Zimmermann H.J., Fuzzy Set Theory And Its
Applications, 3rd edition, Kluwer Academic Publishers,
1996.
صفحه 76:
Schmid P., Explicit N-Best Formant Features for Segment-
Based Speech Recognition. PhD Thesis. Oregon graduate
Institute of Science and Technology. 1996
YU HJ., OH Y.H., Fuzzy Expert System for Continuous Speech
Recognition. Expert Systems With Applications, Vol.9.No.1, pp.
81-89, 5
Hermansky H. "Should recognizers have ears?".In Proc. ESCA
Tutorial and Research Workshop on Robust Speech
Recognition for Unknown Communication Channels, pp. 1-10.
France 1997.
Greenberg. S.,"Understanding speech understanding -
towards a unified theory of speech perception". Proceedings
of the ESCA Tutorial and Advanced Research Workshop on the
Auditory Basis of Speech Perception, Keele, England, p. 1-8,
1996.