سایرتحقیق و پژوهشسایر

بررسی روش انسان در تشخيص صحبت و شبيه سازی آن

صفحه 1:
به نام خدا م 8 بررسى روش انسان در تشخيص صحبت و شبیه‌سازی آن سید کمال‌الدین غیاثی شیرازی دانشکذة مهندشی کامپیوتر ذانشگا ضتفتی شریف 28/10/1383

صفحه 2:
مظالب لل ا * شناخت انسان و سیگتال صحب- — سیستم استخراج ویژگی 9 سیستم بازشناسی @ آزمایش‌ها

صفحه 3:
5 بررسی روش انسان در تشخ

صفحه 4:
محدودیت‌هایی که روش‌های موجود ایجاد می کنند غير قابل تفسير مبتنی بر مدل (معمولا ‎(HMM‏ وابسته به اطلاعات زبانی بدون قابلیت کشف صداهای جدید مبتنی بر نظریه احتمال هستند که شواهد زیادی نشان می‌دهند که انسان بر مبنای این نظریه کار نمی‌کند پیوند غیر طبیعی با سطوح بالاتر زبانی مانند کلمه و گرامر و نیز مبتنی بودن بر مدل زبانی خلاصه: همه مشکلات از بالا به پایین حل می‌شوند (ما راه حل را کشف می‌کنیم و به کامپیوتر می‌دهیم)

صفحه 5:
توليد ابزار © دستکاری سیگنال در فرکاشن ۵1161۱ 8 دستکاری سیگنال در فضای طیف‌نگار ۴ دستکاری سیگنال در فضای بانک فیلتر

صفحه 6:
ویژگی‌های سیگنال صحبت؟ 0 "! فازی ۴ غیر دقیق ۴ اهمیت ویژگی‌ها با انرژی آنها متناسب است 7 مبتنی بر نظریه امکان

صفحه 7:
سیگنال صحبت فاژی است در مثال بعد می‌بینیم که حرف «ی» می‌تواند به‌جای حرف «ن» به کار رود. به عبارت دیگر «ی» و «ن» بودن مفهومی فازی است که دارای اشتراک ذاتی است. نکته: ولی می‌توان (امکان دارد) «ی» را به عنوان «ن» پذیرفت. س: احتمال اینکه کسی «ی» را مانند «ن» بگوید چقدر است؟

صفحه 8:
هتسهآ ]هرهز Bee eee 0:01.129 + “N” + “A*

صفحه 9:
۱۳۳۱ ۱۳۰۱۵۳۹۳۵ Tenet |

صفحه 10:
لسع ۱۳۰۳۳۵۵ ۱۰۳۵۹۵۵ ۰۱۳۵۱ ۳۲۰۳۱۳۱۳۹ ۱۳5 ۳

صفحه 11:
0 یگنال صحبت غير دقیق ‎aul‏ ‏۴ یعنی ما نسبت به مقدار ویژگی‌ها خیلی حساس نیستیم. يعنى ما نسيت ب 2

صفحه 12:
3 ei 0:00.000 الت العاهایه]

صفحه 13:

صفحه 14:
سای

صفحه 15:
ویژگی‌های پر انرژی مهم‌ترند (مثال ۱)

صفحه 16:
‎Tis Is cea‏ اك هاه ‎Eee isa ‎"M” + “A” oN” + “A! ‎ ‎ ‎ ‎ ‎

صفحه 17:
سوه اه الاح سا ]رل 0:01.324 ‎A" “MM” + “AS‏ 4 ”هه ‎ ‎ ‎ ‎ ‎

صفحه 18:
ویژگی‌های پر انرژی مهم‌ترند (مثال ۲)

صفحه 19:
| [>|] i i 3 Lis] | 8 ۱۳۳3

صفحه 20:

صفحه 21:
anit dina Cal pee ‏ييل 5 مواروي كه جترى‎ وجود دارد) . آن را آنطور كه مىخواهيم تفسير مى كنيم. ' ما آنجه را كه دوست داريم مىشنويم نه آنجه را كه هست.

صفحه 22:
§ به‌جای ) از نویز سفید استفاده شده است. سح سح _—— Con Az

صفحه 23:
تفاسیر متداول از فازی که مد نظر ما نیست ۴ افزانش سعرعت ۴ سیستم‌های مبتنی بر قانون عملگرهای قایل تنظیم @ |,: اینها درست هستند اما روح فازی نیستند.

صفحه 24:
مقاهیم اساسی فازی تنظیم رابطه بين درستى گزاره و دقت گزاره قد من ۱۸۳۸۹۹۸۹۸۷۶۷ سانتیمتر است قد من بين ۱.۷۰ تا ۲ متر است خلاصه: کاهش دقت و افزایش درستی. | طمینان | ستحکام و 5 قطعیت

صفحه 25:
مشکل مبهم بودن همه چیز ‎SI‏ همه‌چیز دارای ابهام است پس ما چگونه می‌توانیم صحبت بدون معنی را ۰ تشخیص دهیم؟ تشخیص صحبت بدون معنی,با وجود نویز سفید. به همراه صداهای ناشناخته (مثل بوق ماشین), با قطعیت؟ کدام‌یک را انتخاب می‌کنید؟ ‏تاسی را بياندازيم و اگر ۶ نیامد ۶۰ میلیون تومان. ‏امید ریاضی - ۵۰ قطعا ۴۰ میلیون تومان اميد رياضى - ۴۰ ‏انسان قطعیت را دوست دارد (+ مثالی از تفاوت احتمال با تفکر انسان). ‎

صفحه 26:
تفسیر ما از فازی بودن سیگنال صحبت واج‌ها مجموعه‌هایی فازی هستند. اما در سیگنال صحبت بخش‌هایی هستند که آنها را شیء می‌نامیم و اين اشياء با قطعیت قابل تمیز هستند.(لزام) همچنین اشیائی هستند که تفاوت کمی با هم دارند مانند «م» و «ن» که در آنها دقیق نمی‌شویم. (امکان) «م» و «ن» مجموعه‌هایی فازی هستند (امکان) ولی گذر آنها به واج «آ» كاملا متمایز است (الزام).

صفحه 27:
نظریه امکان هدف: تشخیص صحبت ممکن. آنچه سیستم‌های کنونی (از جمله سیستم من) تشخیص می‌دهند غیر ممکن است چه برسد به محتمل. احتمال: محتمل‌ترین مدلی, که این سیگنال را تولید کزده است: امکان: اين مشاهده توسط کدام مدل‌ها قابل تولید است. خلاصه نظریه امکان: امکان - میزان شدنی بودن ۸ امکان /- میزان شدنی بودن ۸۵۴ (2055)8 و (2055)86 مين ولنند هر مقدار دلخولهىدلشته باشند

صفحه 28:
استفاده از نظربه امکان برای چهل و کشف A Possi(A‘) -0 Poss(A)-1 ( AC Poss(A‘) -1 Poss(A)-0 ‏نمیهلنم‎ Poss(A‘) -1 Poss(A)-1 ‏نویز-دشی جدید‎ Poss(A‘) -0 Poss(A)-0 در نظریه احتمال که 1-(۴)۵:(:۳)۵ نمی‌دانم و کشف را نداریم. نکته: نمی‌دانم و کشف نویز همان چیزهایی هستند که به ما اجازه می‌دهند با قطعیت حرف بزنیم. وقتی کسی فقط راجع به چیزهایی که می‌داند حرف می‌زند صحبتش قابل اعتمادتر است.

صفحه 29:
استخراج ویژگی‌ها در 2001۳05 تا چیزی که بتوان با قطعیت راجع به آن حرف زد وجود داشته باشد. مبتنی بر ویژگی‌های شنیداری و بخش‌بندی بر اساس اشیاء یک دلیل برای اینکه توانایی صحبت کردن پس از توانایی شنیدن شکل می‌گیرد این است که کودکان به زبان خودشان حرف می‌زنند ولی به زبان خودشان نمی‌شنوند. دارای دقتی مشابه انسان نسبت به مقدار ویژگی‌ها دارای استحکام بیشتر در مقابل نویز

صفحه 30:
مطلوبات ‎Paso‏ بازشناسی مبتنی بر مدل نبودن مبتنی بر نظریه امکان قابلیت کشف اشیاء جدید چون صحبت را خوب می‌شناسیم اشیاء جدید را نیز تشخیص مى دهيم. دارای پیچیدگی محاسباتی کمتر به علت استفاده از عملگرهای ۷ و ‎Min‏ هدف: قطعیت در تشخیص صحبت.

صفحه 31:
س: چگونه با مدلی ساده می‌خواهید تنوع صحبت شرت را پوشش دهید؟ تطبیق در حین تشخیص. تغییر دادن پارامترها در جهت رسیدن به یک حالت ممکن و سپس افزايش مقدار امکان. چون حالات ممکن کم هستند. رسیدن به یکی از حالات ممکن خود گواه درستی راه است. (مشابه روش 1 در نظریه احتمال) استفاده از چند مدل ساده. برای هر گونه از صحبت یک مدل ساده در نظر می‌گیریم. خلاصه: نمونه را تغییر می‌دهیم تا شبیه یکی از مدل‌ها شود.

صفحه 32:
روش پیشنهادی برای سیستم تشخیص صحس ااا 5 متا ترمال كردت دام ‎yt le bb EOF sag hl‏ ام که ار ‎Se ne‏ ‏ايده اصلى: تغيير بارامترها در جهت شنیدن یک صدای ممکن ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 33:

صفحه 34:
اهداف سیستم بخش‌بندی مبتنی بر مفهوم شیء که بدون اطلاعات زبانی به دست می‌آید. در این صورت می‌توان توقع داشت که اشیاء بزرگ‌تری مانند كلمة بو جملة بر اساسن اشباء کوجک‌تر شکل بگیرند. رابطه خوب با نوعى از نمايش دانش به نام كراف مفهومى كه از انسان الهام كرفته است. در اين روش اشياء جديد با ارتباط برقرار كردن بین اشیاء قبلی ساخته می‌شوند. استخراج ویژگی‌ها در زمان و فر کانس (200۳۳95) قابل تفسیر بودن. در اینصورت می‌توان از اطلاعات انسان در خواندن طیف‌نگار استفاده کرد.

صفحه 35:
روش بخش‌بندی و استخراج ویژگی 0139۳1 محاسبه انرژی باندهای فیلتر در قاب‌ها. تقریب زدن خط سیر انرژی در هر باند فیلتر با خط. به دست آوردن اشیاء. با استفاده از تقریب خطی سیگنال خط سيره بخش بندى سيكنال صحبت. استخراج ويزكى در هر بخش. ]در مرحله آموزش[ به دست آوردن صدک‌ها برای هر ویژگی.. سس بیان مقدار هر ویژگی با عددی صحیح بین ۰ تا ۱۰۰.

صفحه 36:
خط سیر انرژی در باند فیلتر ۶ام اساسا

صفحه 37:

صفحه 38:

صفحه 39:
fee "ذا شیی بزرگ‌ترین شکل محدب در خط سیر است. ۴ ایده اصلی: شکل‌های محدب در سیگنال انرژی بیانگر اراده گوینده در تولید انرژی در زمان مشخصی هستند. اطمینان از ظهور شیء عدم تولید انرژی

صفحه 40:
بخش‌بندی بر اساس کوچکترین اشیاء

صفحه 41:
ویژگی‌های بخش‌بندی پس از بخش‌بندی یک مجموعه کاملا مرتب از بازه‌های زمانی داریم که دارای همپوشانی هستند. اولین الگوریتم بخش‌بندی است که بخش‌ها دارای همپوشانی هستند (تا آنجا که ما دیده‌ایم), قازل اتفسير اسك كاهش شديد تعداد بردارهاى ويزكى نسبت به سيستمهاى مبتنى بو قاب. ذر.مثال قبل ‎٠١6‏ قاب به ؟ بش ساذه شذه استد داراى تفکیک مناسب در زمان و فر کانس

صفحه 42:
استخراج ویژگی به هرحال یک بازه زمانی به عنوان یک بخش داده می‌شود. خط سیرهای انرژی را با این بازه زمانی قطع می‌دهیم و حاصل را با یک یا دو خط تقریب می‌زنیم. ویژگی اول همان طول بخش است. برای هر باند فیلتر ویژگی‌های زیر را حساب می‌کنیم: بیشینه انرژی میزان تقعر یا تحدب شیب خط J

صفحه 43:
استخراج ویژگی بدین ترتیب ‎٩۷-۱+۴*۲۴‏ ویژگی استخراج می‌شود. اگر بخواهیم با ۸ کار کنیم ۴ ویژگی را با ‎1١١ & DCT‏ عدد کاهش می‌دهیم وبه ۴۹ ویژگی می‌رسیم. در هنگام کار با پایگاه داده ۵۱1۲0۲۵2 از ۱۸ باند فیلتر استفاده می‌کنیم. در نتیجه ‎۱۰۴*۹٩‏ - ۲۷ ویژگی خواهیم داشت. اکنون دیگر ویژگی‌ها صرفا فر کانسی نیستند. ویژگی‌ها اکنون ماهیت زمانی-فر کانسی دارند. با توجه به کارهای دیگران توقع داریم که ویژگی‌های زمانی- فر کانسی مقاوم‌تر باشند.

صفحه 44:
کوانته کردن ویژگی‌ها بر حسب صدک‌ها با توجه به آماری که از روی داده آموزشی به دست می‌آید. هر مقدار ویژگی به عددی صحیح بین ۰ تا ۱۰۰ نگاشته می‌شود. مزایا: حافظه کمتر در ذخیره مقدار ویژگی. البته در مجموع حافظه بیشتری مصرف می‌شود. عدم نیاز به مدلی برای نشان دادن فضای پیوسته. بدین ترتیب آمکان تولید سیستم داده‌محور فراهم می‌شود. رهایی از مفهوم مخلوط که در روش‌های مبتنی بر مدل باید برای رفع ضعف‌های مدل فرض شده (مانند تابع نرمال) استفاده شود.

صفحه 45:
مقایسه ۷1۳/6 و ۳۲5۳۲ توسط سیستم ک ۳11 499۶ 062600 999 2209 22000 60.49 985

صفحه 46:
نویزهای نوع ۱ و ۲ Debby, Our, revtarect, 6۳ ۳00 99.00 90۹6 ممه 5009 مسا ۵806 909 696.6 موه 206 POO 99.08 98.89 9099 ‏و9‎ ‎99 Obury, Cxhbava, ( COOGEE 09 e988 09 66.0 98.98 640 0 50 نتایج تنها بر روی نویزهایی که شیء جدید اضافه نمی‌کنند بالا رفت. مقصر؟ سیستم استخراج ویژگی یا سیستم بازشناسی نکته: به نظر می‌رسد که بخش اعظم تفاوت ۲ با ‎۸۹٩‏ در بهینه نبودن — در بخش پیش‌پردازش است.

صفحه 47:
مقایسه 085۳778 با ۷1۳706[ در تشخیص کلمه مزایای ]085۳ مقاومت بیشتر در مقابل نویز قابل تفسیر بودن ویژگی‌ها کاهش تعداد بردارهای ویژگی به حداقل یک پنجم تعداد قاب‌ها در ‎MFCC‏ ‏سریع‌تر برای سیستم بازشناسی مزایای ‎MFCC‏ ‏پیاده‌سازی ساده‌تر (بویژه از نظر سخت‌افزاری) نتیجه بالاتر در محیط کاملا تمیز

صفحه 48:

صفحه 49:
مساله بازشناسی از دید گاه عملگرهای فازی ‎T‏ POM) =) ays] [Be (Axo see XxX ‏اج‎ 7 7 ۱ م2 (:0) 2[ ]1 مت ‎M)‏ ]20 1 2 TH(O|M) =max minb,.(0)}

صفحه 50:
‎P(M)‏ کجاسگ ‏احتمال: ‎argnaxA(M|O) =argnaxP(O| M) -A.M)‏ ‎M M‏ امکان: ‎argnaxll(M|O) =argnaxmin1(O|M),11(M)‏ ‎M M‏ ‎VMe phonemesl(M) 52 ۱‏ ‎=argnax!l(O| M)‏ 0 )موجه ‎

صفحه 51:
3 9 5 15 oe ad 38 = 3 ‏الع‎ 4 4 4 0

صفحه 52:
اله اله له انهاه ۲- حذف نويز s 0 0 ‏د مد مد‎ 5 5 8 8858 5 58 5 58 a Us neo atx

صفحه 53:
4 ‎a oo 3‏ 5 9 3 ‎a‏ ‏3 ‏با 2 ‎ox‏ ۳ , 9 انه لت ل ل < ل 6 ۵ عد ايه عد عد 5 مد مد مد مد 15 5۲ EE DS 9 9 90 0 0 0 مد مد تقد ند مد تقد ند تقد مد 19 20 21 a Ut 0 ch £ 0 OC DH eed nue ms =O) 2# * 1 1 1 1 1113 یتست

صفحه 54:
52 * ‎ee «‏ د ه أأء 3 9 2 3 40 4 0 0 © او 5 ‎wx x‏ , 9 انه لت ل ل < ل 6 ۵ عد ايه عد عد 5 مد مد مد مد 15 5۲ EE DS 9 9 90 0 0 0 مد مد تقد ند مد تقد ند تقد مد 19 20 21 0 عد = a Ut 0 ‏جات ال‎ atu 9 £ 0 OC DH eed nue ms =O) 2# * 1 1 1 1 1113 ۷ 5 5 تو و وضو 15 13 17

صفحه 55:
توزیع امکان مثبت مخلوطی از 26

صفحه 56:
توزیع امکان منفی مخلوطی از 26

صفحه 57:

صفحه 58:
محاسبه شباهت اولیه (-۲01 ‎(discriminative‏ - (۷< ۷) ۲ ] [- لها ”ل .02 ial Sinn (Vy =v)'= Y 1001 (y=) iA +1 AW =v) iA ‏در اين مرحله به دنبال تابعی هستیم که میزان شیاهت بردار ویژگی را با‎ Henle ceed oo nals slg IMM ‏گروه بیان نماید. در‎ ‏می‌شود. غهلگر ۲۲۱۱۳ براق اين كار متاسب نيست.‎ ‏اگر ۲1)0|۸(>۲ آنگاه 0 شبیه به ۸۵ نیست.‎

صفحه 59:
مقایسه عملگرهای مختلف برای تر کیب ویژگی‌ها Table J, Syllable classification accuracy for several aggregation methods Method) MAX | MIN {MEAN} WT} MLP } FUZZY ANG NT.

صفحه 60:
محاسبه شباهت ثانویه ‎(Discriminative)‏ ‎M(OJA)>T SI‏ ‎=v)‏ ۲۷), 0.1+11 بت ۲ 00007 ‎Ye ee‏ — (۸ ۳ 1 ‎SimilarityO, 2 01+ 11 ,)۲ <۲(‏ (17- /1), 11 +01 2 imilarityO, A) = SimilarityO, 2 01717 خلاصه: به تفاوت‌های بین مدل مثبت و منفی اهمیت بیشتری می‌دهیم. ‎٩‏ در مقابل ۰.۷ کم‌اهمیت‌تر از ۰.۳ در مقابل ۰۰۱ است.

صفحه 61:
محاسبه شباهت بردار ویژگی 0 به ‎A els‏ اگر 51۳۱۱۱۵۲۱۲۷۰>5۱۳۱۱۱۵۲۱۳۷ آنگاه ۵ به ۸۵ شبیه نیست. در غير اين صورت داریم: لست تت ل اه SimilarityO, A) + SimilaritVO, A) ‏مقادیر شباهت توسط اندازه‌گیری امکانی اصلاح‎ plas ‏در نهایت‎ ‏شده قابل تفسیر می‌شوند.‎

صفحه 62:
‎A‏ درس سوه ‎“XK wt fl)‏ ‎OGL PI) > OG oot M1) ‎ ‎ ‎(Vint ‏سح‎ ‎QC» HN) > (te wt KY) ‎ ‎Mew

صفحه 63:
rocker OP He اشیاء با ۴ نام معکن سس اشیاء و نام گروه مربوط به آنها فر آیند آموزش عم مس هه الس میت لالد 1 در اين مرحله مقدار عددى امكان نيز داراى معنی می‌شود. ( له ‎Or tee‏ هي > لاس بجع سه 2ه ‎Oinbution‏ رماس سي | ‎Oeyaive‏ سه ‎Coenbahiy Orinbuion‏ ‏لاس ا ‎station‏ ‎| ‎Or kovw ‏فا دا مسق

صفحه 64:
تعیین امکان مثبت برای هر واحد آوایی-شنوایی فرض کنیم نمونه‌های واحد آوایی-شنوایی ۸ را می‌شناسیم. أ - يكواز ويزكيها Ves LG yp gore =] ‎Na(i,j)‏ ب-ولبر تعداد دفعاتولسکه ویژگی| مقدار را ‎NG)‏ ‎1,0.) “SENG ‎4 ‎

صفحه 65:
تعیین امکان منفی برای هر واحد آواتی شنوایی فرض کنیم (۳ را داریم. از روی آن نمونه‌های واحدهای آوایی-شنوایی دیگر را که شبیه ۸ هستند را می‌شناسیم. - یکیاز ویژگیما [ - عدعبین» تا۱۰۰ (ز,أ)م_] بولبر تعداد دفعاتی‌لستکه در یکواز نمونه‌هلیی که به اشتباه لمکان/ بودن‌آنها ب الالسنهیژگی| مقدار [ را گرفته لست ‎M,,(i,j)‏ ‎“mak, GD)‏ یل ‎

صفحه 66:

صفحه 67:
۴- آزمایش‌ها کلمه (تشخیص اعداد انگلیسی بر روی دادگان ۵:۲۵۲۵2) مقایسه )۱۳ و 0851 با سيستم بازشناسی ۲۱۲1 واج (تشخیص واج‌های زبان فارسی بر روی دادگان فارس‌دات) مقایسه ۱۷۱۳ با سیستم بازشناسی ما بر روی ویژگی‌های ‎mfcc‏ ‏مقایسه ۲۱۱۷۱ با سیستم بازشناسی ما 5 ‎eee‏ با سیستم بازشناسی ما برروی ویژگی‌های مقایسه ۲۱۱ با سیستم بازشناسی ما در حضور اشیاء ناشناخته

صفحه 68:
مقایسه ۷1۳/6 و ۳۲5۳۲ توسط سیستم ک ۳11 499۶ 062600 999 2209 22000 60.49 985

صفحه 69:
تشخیص واج بر روی لهجه تهرانی فارس‌دات میل مخفی مارکوف ۶۶ ‎YYZ‏ 7 سيستم بازشناسى امکانی ۳۹۳۳ ۳۶ ۳۶۸ MFCC OBSFE ۴ به هملد 1۱۰۰ نویز

صفحه 70:
بررسی تأثیر ساده‌سازی ها در تشخیص کلمه تق زدن با خط /ع/دوة جحلب ۹۷.۱۱ كريب 2 ‎GAY, ۸‏ كوانته كردن به ‎٠٠١‏ مقدار ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 71:
بررسی تأثیر ساده‌سازی ها در تشخیص واج ۶.1 FOr مح 2۱/۸ ی ۶۷ تقریب زدن با خط کوانته کردن به ۱۰۰ مقدار

صفحه 72:
نتايج از دید گاه فرار از محدودیت‌ها و شناخت بهتر ۴ استخراج ویژگی‌ها در قاب ۴ فضای ویژگی‌های پیوسته ۳ دقت بالا در مقدار ویژگی‌ها ۳ نظریه احتمال ۴ مبتنی بر مدل بودن ۴ + قابل تفسیر بودن ۴ نتایج نیز برای ادامه کار امیدبخش هستند.

صفحه 73:
نتایج از دید گاه مشابهت به روش انسان استخراج ویژگی در زمان-فر کانس که استحکام را بالا می‌برد. کار با مفهوم شیء که از اطلاعات زبانی مستقل است. مبتنی بر مدل نبودن استفاده از نظریه امکان که با توجه به آزمایش‌های ما برای تشخیص صحبت طبیعی‌تر است. دقتی در حد ۱۰۰ سطح. آزمایش‌های ما نشان می‌دهد که انسان‌ها نیز به جزئیاتی بیش از این حساس نیستند.

صفحه 74:
با تشکر از ۴ دکتر باقری و دکتر رضوی‌زاده بخاطر تشویق‌هاء راهنمایی‌ها و انتقال تجربیات گرانقدرشان ۴ دکتر ثامتی بخاطر آشنا کردن من با روش‌های متداول تشخیص صحبت وذر اختیار گذاشتن تمام امکاناقشان و صبر زیادشان ۴ دوستانم در شر کت عصر گویش | و شما بخاطر حضورتان.

صفحه 75:
مراجع اصلی نظریه‌های عدم قطعیت Zadeh L. A., Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1(1), 3-28. 1978. Dubois D., Prade H., Possibility theory. New York, London. 1988. Shafer G., A Mathematical Theory Of Evidence, Princeton University Press, Princeton, NJ, 1976. Zimmermann H.J., Fuzzy Set Theory And Its Applications, 3rd edition, Kluwer Academic Publishers, 1996.

صفحه 76:
Schmid P., Explicit N-Best Formant Features for Segment- Based Speech Recognition. PhD Thesis. Oregon graduate Institute of Science and Technology. 1996 YU HJ., OH Y.H., Fuzzy Expert System for Continuous Speech Recognition. Expert Systems With Applications, Vol.9.No.1, pp. 81-89, 5 Hermansky H. "Should recognizers have ears?".In Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, pp. 1-10. France 1997. Greenberg. S.,"Understanding speech understanding - towards a unified theory of speech perception". Proceedings of the ESCA Tutorial and Advanced Research Workshop on the Auditory Basis of Speech Perception, Keele, England, p. 1-8, 1996.

به نام خدا بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن سيد کمال‌الدين غياثي شيرازي دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف 28/10/1383 مطالب شناخت انسان و سيگنال صحبت سيستم استخراج ويژگي سيستم بازشناسي آزمايش‌ها 76/2 -1بررسي روش انسان در تشخيص صحبت 76/3 محدوديت‌هايي که روش‌هاي موجود ايجاد مي‌کنند غير قابل تفسير مبتني بر مدل (معموال )HMM وابسته به اطالعات زباني بدون قابليت کشف صدا‌هاي جديد مبتني بر نظريه احتمال هستند که شواهد زيادي نشان مي‌دهند که انسان بر مبناي اين نظريه کار نمي‌کند پيوند غير طبيعي با سطوح باالتر زباني مانند کلمه و گرامر و نيز مبتني بودن بر مدل زباني خالصه :همه مشکالت از باال به پايين حل مي‌شوند (ما راه حل را کشف مي‌کنيم و به کامپيوتر مي‌دهيم) 76/4 توليد ابزار دستکاري سيگنال در فرکانس pitch دستکاري سيگنال در فضاي طيف‌نگار دستکاري سيگنال در فضاي بانک فيلتر 76/5 ويژگي‌هاي سيگنال صحبت؟ فازي غير دقيق اهميت ويژگي‌ها با انرژي آنها متناسب است مبتني بر نظريه امكان 76/6 سيگنال صحبت فازي است در مثال بعد مي‌بينيم که حرف «ي» مي‌تواند به‌جاي حرف «ن» به‌کار رود. به عبارت ديگر «ي» و «ن» بودن مفهومي فازي است که داراي اشتراک ذاتي است. نکته :ولي مي‌توان (امکان دارد) «ي» را به عنوان «ن» پذيرفت. س :احتمال اينکه کسي «ي» را مانند «ن» بگويد چقدر است؟ 76/7 ”i” + “N” + “A“ 76/8 ”i” + “A“ 76/9 ”i” + “A“ 76/10 سيگنال صحبت غير دقيق است. يعني ما نسبت به مقدار ويژگي‌ها خيلي حساس نيستيم. 76/11 76/12 كوانته شدن در فضاي بانك فيلتر 76/13 كوانته شدن در فضاي طيف‌نگار 76/14 ويژگي‌هاي پر انرژي مهم‌ترند (مثال )1 76/15 ”M” + “A” “N” + “A“ 76/16 ”N” + “A” “M” + “A“ 76/17 ويژگي‌هاي پر انرژي مهم‌ترند (مثال )2 76/18 Clean Speech 76/19 سيگنال نويزي 76/20 تشخيص مبتني بر نظريه امكان است يعني در مواردي كه چيزي مبهم است (يعني چند تفسير ممكن وجود دارد) ،آن را آنطور كه مي‌خواهيم تفسير مي‌كنيم. ما آنچه را که دوست داريم مي‌شنويم نه آنچه را که هست. 76/21 به‌جاي tاز نويز سفيد استفاده شده است. 76/22 تفاسير متداول از فازي که مد نظر ما نيست افزايش سرعت سيستم‌هاي مبتني بر قانون عملگر‌هاي قابل تنظيم اينها درست هستند اما روح فازي نيستند. 76/23 مفاهيم اساسي فازي ‏تنظيم رابطه بين درستي گزاره و دقت گزاره ‏کدام جمله درست‌تر است؟ ‏کدام جمله دقيق‌تر است؟ ‏قد من 183.899898767سانتيمتر است ‏قد من بين 1.70تا 2متر است ‏خالصه :کاهش دقت و افزايش درستي، اطمينان ،استحکام و قطعيت 76/24 مشکل مبهم بودن همه چيز اگر همه‌چيز داراي ابهام است پس ما چگونه مي‌توانيم صحبت بدون معني را ٪100تشخيص دهيم؟ تشخيص صحبت بدون معني،با وجود نويز سفيد ،به همراه صداهاي ناشناخته (مثل بوق ماشين) ،با قطعيت؟ کدام‌يک را انتخاب مي‌کنيد؟ ‏ ‏ تاسي را بياندازيم و اگر 6نيامد 60ميليون تومان. اميد رياضي = 50 قطعا 40ميليون تومان اميد رياضي = 40 انسان قطعيت را دوست دارد ( +مثالي از تفاوت احتمال با تفکر انسان). 76/25 تفسير ما از فازي بودن سيگنال صحبت واج‌ها مجموعه‌هايي فازي هستند. اما در سيگنال صحبت بخش‌هايي هستند که آنها را شيء مي‌ناميم و اين اشياء با قطعيت قابل تميز هستند( .الزام) همچنين اشيائي هستند که تفاوت کمي با هم دارند مانند «م» و «ن» که در آنها دقيق نمي‌شويم( .امکان) « م» و «ن» مجموعه‌هايي فازي هستند (امکان) ولي گذر آنها به واج «آ» کامال متمايز است (الزام). 76/26 نظريه امکان ‏ ‏ ‏ ‏ هدف :تشخيص صحبت ممکن .آنچه سيستم‌هاي کنوني (از جمله سيستم من) تشخيص مي‌دهند غير ممکن است چه برسد به محتمل. احتمال :محتمل‌ترين مدلي که اين سيگنال را توليد کرده است. امکان :اين مشاهده توسط کدام مدل‌ها قابل توليد است. خالصه نظريه امکان: ‏ ‏ امکان =Aميزان شدني بودن A امکان =Acميزان شدني بودن Ac Poss(A) و ) Poss(Acمي‌توانند هر مقدار دلخواهي داشته باشند. 76/27 استفاده از نظريه امکان براي جهل وکشف ‏ ‏ ‏ ‏ ‏Poss(A)=1 ‏Poss(A)=0 ‏Poss(A)=1 ‏Poss(A)=0 ‏Poss(Ac) =0 ‏Poss(Ac) =1 ‏Poss(Ac) =1 ‏Poss(Ac) =0 ‏A ‏Ac نمي‌دانم نويز=شيء جديد در نظريه احتمال که P(A)+P(Ac)=1نمي‌دانم و کشف را نداريم. نکته :نمي‌دانم و کشف نويز همان چيز‌هايي هستند که به ما اجازه مي‌دهند با قطعيت حرف بزنيم. ‏ 76/28 وقتي کسي فقط راجع به چيز‌هايي که مي‌داند حرف مي‌زند صحبتش قابل اعتماد‌تر است. مطلوبات در مورد بخش استخراج ويژگي استخراج ويژگي‌ها در 200msتا چيزي که بتوان با قطعيت راجع به آن حرف زد وجود داشته باشد. مبتني بر ويژگي‌هاي شنيداري و بخش‌بندي بر اساس اشياء يک دليل براي اينکه توانايي صحبت کردن پس از توانايي شنيدن شکل مي‌گيرد اين است که کودکان به زبان خودشان حرف مي‌زنند ولي به زبان خودشان نمي‌شنوند. داراي دقتي مشابه انسان نسبت به مقدار ويژگي‌ها داراي استحکام بيشتر در مقابل نويز 76/29 مطلوبات در مورد سيستم بازشناسي مبتني بر مدل نبودن مبتني بر نظريه امکان قابليت کشف اشياء جديد چون صحبت را خوب مي‌شناسيم اشياء جديد را نيز تشخيص مي‌دهيم. داراي پيچيدگي محاسباتي کمتر به علت استفاده از عملگر‌هاي Maxو Min هدف :قطعيت در تشخيص صحبت. 76/30 س :چگونه با مدلي ساده مي‌خواهيد تنوع صحبت را پوشش دهيد؟ تطبيق در حين تشخيص .تغيير دادن پارامتر‌ها در جهت رسيدن به يک حالت ممکن و سپس افزايش مقدار امکان .چون حاالت ممکن کم هستند ،رسيدن به يکي از حاالت ممکن خود گواه درستي راه است( .مشابه روش MLدر نظريه احتمال) استفاده از چند مدل ساده .براي هر گونه از صحبت يک مدل ساده در نظر مي‌گيريم. خالصه :نمونه را تغيير مي‌دهيم تا شبيه يکي از مدل‌ها شود. 76/31 روش پيشنهادي براي سيستم تشخيص صحبت 76/32 ايده اصلي :تغيير پارامتر‌ها در جهت شنيدن يک صداي ممکن -2بخش‌بندي و استخراج ويژگي 76/33 اهداف سيستم بخش‌بندي مبتني بر مفهوم شيء که بدون اطالعات زباني به دست مي‌آيد. در اين صورت مي‌توان توقع داشت که اشياء بزرگ‌تري مانند کلمه و جمله بر اساس اشياء کوچک‌تر شکل بگيرند. ‏ رابطه خوب با نوعي از نمايش دانش به نام گراف مفهومي که از انسان الهام گرفته است .در اين روش اشياء جديد با ارتباط برقرار کردن بين اشياء قبلي ساخته مي‌شوند. استخراج ويژگي‌ها در زمان و فرکانس ()200ms قابل تفسير بودن .در اينصورت مي‌توان از اطالعات انسان در خواندن طيف‌نگار استفاده کرد. 76/34 روش بخش‌بندي و استخراج ويژگي OBSFE .1 .2 .3 .4 .5 .6 .7 76/35 محاسبه انرژي باند‌هاي فيلتر در قاب‌ها. تقريب زدن خط سير انرژي در هر باند فيلتر با خط. به دست آوردن اشياء .با استفاده از تقريب خطي سيگنال خط سير. بخش‌بندي سيگنال صحبت. استخراج ويژگي در هر بخش. ]در مرحله آموزش[ به دست آوردن صدك‌ها براي هر ويژگي. بيان مقدار هر ويژگي با عددي صحيح بين 0تا .100 خط سير انرژي در باند فيلتر ‌6ام 76/36 تقريب زدن خط سير با خط 76/37 پيدا کردن اشياء ممکن در هر بانک فيلتر 76/38 شيء شيئ بزرگ‌ترين شکل محدب در خط سير است. ايده اصلي :شکل‌هاي محدب در سيگنال انرژي بيانگر اراده گوينده در توليد انرژي در زمان مشخصي هستند. اطمينان از ظهور شيء عدم توليد انرژي 76/39 توليد انرژي بخش‌بندي بر اساس کوچکترين اشياء 76/40 ويژگي‌هاي بخش‌بندي پس از بخش‌بندي يک مجموعه کامال مرتب از بازه‌هاي زماني داريم که داراي همپوشاني هستند. اولين الگوريتم بخش‌بندي است که بخش‌ها داراي همپوشاني هستند (تا آنجا که ما ديده‌ايم). قابل تفسير است. کاهش شديد تعداد بردار‌هاي ويژگي نسبت به سيستم‌هاي مبتني بر قاب .در مثال قبل 104قاب به 9بخش ساده شده است. داراي تفکيک مناسب در زمان و فرکانس 76/41 استخراج ويژگي ‏ .1 .2 .3 به هرحال يک بازه زماني به عنوان يک بخش داده مي‌شود. خط سير‌هاي انرژي را با اين بازه زماني قطع مي‌دهيم و حاصل را با يک يا دو خط تقريب مي‌زنيم. ويژگي اول همان طول بخش است. براي هر باند فيلتر ويژگي‌هاي زير را حساب مي‌کنيم: .1 .2 .3 .4 76/42 بيشينه انرژي ميزان تقعر يا تحدب شيب خط مرکز ثقل استخراج ويژگي بدين ترتيب 97=1+4×24ويژگي استخراج مي‌شود. اگر بخواهيم با HMMکار کنيم 24ويژگي را با DCTبه 12 عدد کاهش مي‌دهيم و به 49ويژگي مي‌رسيم. در هنگام کار با پايگاه داده Aurora2از 18باند فيلتر استفاده مي‌کنيم .در نتيجه 37 = 1+4×9ويژگي خواهيم داشت. اکنون ديگر ويژگي‌ها صرفا فرکانسي نيستند .ويژگي‌ها اکنون ماهيت زماني-فرکانسي دارند. با توجه به کار‌هاي ديگران توقع داريم که ويژگي‌هاي زماني- فرکانسي مقاوم‌تر باشند. 76/43 کوانته کردن ويژگي‌ها بر حسب صدک‌ها با توجه به آماري که از روي داده آموزشي به دست مي‌آيد ،هر مقدار ويژگي به عددي صحيح بين 0تا 100نگاشته مي‌شود. مزايا: سرعت بسيار بيشتر حافظه کمتر در ذخيره مقدار ويژگي .البته در مجموع حافظه بيشتري مصرف مي‌شود. عدم نياز به مدلي براي نشان دادن فضاي پيوسته .بدين ترتيب امکان توليد سيستم داده‌محور فراهم مي‌شود. رهايي از مفهوم مخلوط که در روش‌هاي مبتني بر مدل بايد براي رفع ضعف‌هاي مدل فرض شده (مانند تابع نرمال) استفاده شود. 76/44 HTK توسط سيستمOBSFE وMFCC مقايسه MFCC% OBSFE% WER Improvement % 15dB 80.43 85.48 25.77 10dB 57.26 71.08 32.33 5dB 30.1 39.59 13.57 average 55.93 65.38 21.44 76/45 نويز‌هاي نوع 1و 2 ‏Babble, Car, restaurent, Airport, ‏Station ‏Subway, Exhibition, Street ‏MFCC ‏OBSFE ‏MFCC ‏OBSFE 99.01 91.45 99.04 91.34 ‏Clean 92.58 89.87 96.39 89.2 20dB 80.14 85.48 91.33 81.65 15dB 57.07 71.08 73.83 64.1 10dB 30.03 39.59 45.15 32.94 5dB نتايج تنها بر روي نويز‌هايي که شيء جديد اضافه نمي‌کنند باال رفت. مقصر؟ سيستم استخراج ويژگي يا سيستم بازشناسي نکته :به نظر مي‌رسد که بخش اعظم تفاوت ٪92با ٪99در بهينه نبودن سيستم در بخش پيش‌پردازش است. 76/46 مقايسه OBSFEبا MFCCدر تشخيص کلمه مزاياي OBSFE مقاومت بيشتر در مقابل نويز قابل تفسير بودن ويژگي‌ها کاهش تعداد بر‌دار‌هاي ويژگي به حداقل يک پنجم تعداد قاب‌ها در MFCC سريع‌تر براي سيستم بازشناسي مزاياي MFCC پياده‌سازي ساده‌تر (بويژه از نظر سخت‌افزاري) 4٪ نتيجه باالتر در محيط کامال تميز 76/47 فرآيند بازشناسي 76/48 مساله بازشناسي از ديدگاه عملگر‌هاي فازي T P(O | M)  ax(0) x(1) bx(t) (ot )ax(t) x(t1) X t1 T   ˆ P(O | M) maxax(0) x(1) bx(t) (ot )ax(t) x(t1)  X t1   T   (O | M) maxminbx(t) (ot ) X  t1  76/49 کجاست؟P(M) : احتمال argmaxP(M |O) argmaxP(O | M) P(M) M M : امکان argmax(M |O) argmaxmin(O | M),(M) M M M  phonemes : (M) 1 argmax(M |O) argmax(O | M) M M 76/50 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. j j j j j j k k k k k k k k k k k k k k 21. j j j j j j j j Q ch d t k k A s s k 22. 23. 24. 25. j j j 26. 27. b 28. 29. 30. p ch k k d dj 31. 32. 33. 34. 35. 36. 37. 38. s s 39. 40. k k k k k k k k k k k e e e e e e e e e sh k k k k sh k k t k e ae e y e e e e k k s k ch تهيه ليستي از واج‌هاي-1 ممکن براي هر شيء r e e e e e e e e e 76/51 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. j j j j j k k k k k k k k k k k k k j j j j j j j j Q ch d t k k A s s k 19. 20. 21. 22. j j j 23. b 24. 25. 26. p ch k k d dj 27. 28. 29. 30. 31. 32. 33. s s 34. 35. 36. k k k k k k k k k k e e e e e e e e sh k k k k sh k k t k e ae e y e e e e k k s k ch حذف نويز-2 r e e e e e e e e e 76/52 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. j j j j j k k k k k k k k k k k k k j j j j j j j j Q ch d t k k A s s k 19. 20. 21. 22. j j j 23. b 24. 25. 26. p ch k k d dj 27. 28. 29. 30. 31. 32. 33. s s 34. 35. 36. k k k k k k k k k k e e e e e e e e sh k k k k sh k k t k e ae e y e e e e k k s k ch يافتن کوتاه‌ترين دنباله واجي-3 r e e e e e e e e e 76/53 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. j j j j j k k k k k k k k k k k k k j j j j j j j j Q ch d t k k A s s k 19. 20. 21. 22. j j j 23. b 24. 25. 26. p ch k k d dj 27. 28. 29. 30. 31. 32. 33. s s 34. 35. 36. Jke k k k k k k k k k k e e e e e e e e sh k k k k sh k k t k e ae e y e e e e k k s k ch حذف واج‌هاي کوتاه-4 r e e e e e e e e e 76/54 توزيع امکان مثبت مخلوطي از ae 76/55 توزيع امکان منفي مخلوطي از ae 76/56 تفاضل دو توزيع 76/57 محاسبه شباهت اوليه (Non- )discriminative ‏n ‏T ‏ O v1  vn  | A   A Vi vi   ‏i 1 ‏n ‏max n ‏ln A Vi vi    ln100 A Vi vi  ‏ ‏i ‏i ‏1 ‏1 ‏n ‏ ln1 100 A Vi vi  ‏i 1 در اين مرحله به دنبال تابعي هستيم که ميزان شباهت بردار ويژگي را با گروه بيان نمايد .در HMMنيز اين مرحله با شبکه عصبي کمي بهتر انجام مي‌شود .عملگر minبراي اين کار مناسب نيست. اگر Π(O|A)<Tآنگاه Oشبيه به Aنيست. 76/58 مقايسه عملگر‌هاي مختلف براي ترکيب ويژگي‌ها 76/59 محاسبه شباهت ثانويه )Discriminative( Π(O|A)>T اگر 0.1  A (Vi vi ) SimilarityO, A   i 1 0.1  Ac (Vi vi )  n n SimilarityO, A    0.1  Ac (Vi vi ) 0.1  (V v ) i 1 A i i . به تفاوت‌هاي بين مدل مثبت و منفي اهميت بيشتري مي‌دهيم: خالصه . است0.1 در مقابل0.3 کم‌اهميت‌تر از0.7 در مقابل0.9  76/60 محاسبه شباهت بردار ويژگي Oبه واج A اگر -Similarity+<Similarityآنگاه Oبه Aشبيه نيست. در غير اين صورت داريم: ‏ ‏ ‏Similarity ‏O, A  ‏O, A   ‏Similarity ‏ ‏ ‏O, A  Similarity ‏O, A  ‏Similarity در نهايت تمام مقادير شباهت توسط اندازه‌گيري امکاني اصالح‌شده قابل تفسير مي‌شوند. 76/61 Is X simil ar t o /Y/ Is X simil ar t o /b/ Is X simil ar t o /A/ Ye s Ye s Ye s P(X is /Y/) > P(X is not /Y/) P(X is /ae/) > P(X is not /ae/) P(X is /A/) > P(X is not /A/) Ye s Ye s Ye s List of Possible Phonemes Produce E4fil e Produce E1 fil e VQ نام ممکن4 اشياء با اشياء و نام گروه مربوط به آنها W e Ha ve E1 i n hand Produce Posit ive Possibi lit y Di st ribut i on Produce Negat i ve Possibi lit y Di st ribut i on Correct Possibi lit y Di st ri but i on W e h a ve Re co g n i ze r.i n fo i n h a n d فرآيند آموزش ReEst imat e l abel , mi xt ure, ... Add mixt ure if needed در اين مرحله مقدار عددي .امکان نيز داراي معني مي‌شود تعيين امکان مثبت براي هر واحد آوايي-شنوايي فرض کنيم نمونه‌هاي واحد آوايي-شنوايي Aرا مي‌شناسيم. = i يکي از ويژگي‌ها = j عددي بين 0تا 100 NA(i,j) برابر تعداد دفعاتي است که ويژگي iمقدار jرا گرفته است. )NA (i, j ‏ A (i, j)  ‏maxNA (i, j) ‏j 76/64 تعيين امکان منفي براي هر واحد آوايي-شنوايي فرض کنيم ) ΠA(i,jرا داريم .از روي آن نمونه‌هاي واحد‌هاي آوايي-شنوايي ديگر را که شبيه Aهستند را مي‌شناسيم. = i يکي از ويژگي‌ها = j عددي بين 0تا 100 M~A(i,j) برابر تعداد دفعاتي است که در يکي از نمونه‌هايي که به اشتباه امکان Aبودن آنها باال است ويژگي iمقدار jرا گرفته است. )M A (i, j ‏  A (i, j)  ‏maxM A (i, j) ‏j 76/65 -4آزمايش‌ها 76/66 -4آزمايش‌ها کلمه (تشخيص اعداد انگليسي بر روي دادگان )Aurora2 ‏ مقايسه MFCCو OBSFEبا سيستم بازشناسي HTK ‏ مقايسه HMMبا سيستم بازشناسي ما بر روي ويژگي‌هاي .mfcc مقايسه HMMبا سيستم بازشناسي ما برروي ويژگي‌هاي OBSFE مقايسه HMMبا سيستم بازشناسي ما در حضور اشياء ناشناخته. واج (تشخيص واج‌هاي زبان فارسي بر روي دادگان فارس‌دات) ‏ ‏ 76/67 HTK توسط سيستمOBSFE وMFCC مقايسه MFCC% OBSFE% WER Improvement % 15dB 80.43 85.48 25.77 10dB 57.26 71.08 32.33 5dB 30.1 39.59 13.57 average 55.93 65.38 21.44 76/68 تشخيص واج بر روي لهجه تهراني فارس‌دات مدل مخفي مارکوف سيستم بازشناسي امکاني 49.33% ‏MFCC 22٪ 36٪ ‏OBSFE ? 36٪ OBSFEبه همراه %100نويز 66٪ 76/69 بررسي تاثير ساده‌سازي ها در تشخيص کلمه 76/70 95.76٪ 97.11٪ 98.22٪ 98.93٪ تقريب زدن با خط کوانته کردن به 100مقدار بررسي تاثير ساده‌سازي ها در تشخيص واج 76/71 60٪ 61٪ 65٪ 67٪ تقريب زدن با خط کوانته کردن به 100مقدار نتايج از ديدگاه فرار از محدوديت‌ها و شناخت بهتر استخراج ويژگي‌ها در قاب فضاي ويژگي‌هاي پيوسته دقت باال در مقدار ويژگي‌ها نظريه احتمال مبتني بر مدل بودن + قابل تفسير بودن نتايج نيز براي ادامه کار اميد‌بخش هستند. 76/72 نتايج از ديدگاه مشابهت به روش انسان استخراج ويژگي در زمان-فرکانس که استحکام را باال مي‌برد. کار با مفهوم شيء که از اطالعات زباني مستقل است. مبتني بر مدل نبودن استفاده از نظريه امکان که با توجه به آزمايش‌هاي ما براي تشخيص صحبت طبيعي‌تر است. دقتي در حد 100سطح .آزمايش‌هاي ما نشان مي‌دهد که انسان‌ها نيز به جزئياتي بيش از اين حساس نيستند. 76/73 با تشکر از ...  دکتر باقري و دکتر رضوي‌زاده بخاطر تشويق‌ها ،راهنمايي‌ها و انتقال تجربيات گرانقدرشان دکتر ثامتي بخاطر آشنا کردن من با روش‌هاي متداول تشخيص صحبت و در اختيار گذاشتن تمام امکاناتشان و صبر زيادشان دوستانم در شرکت عصر گويش و شما بخاطر حضورتان. 76/74 مراجع اصلي نظريه‌هاي عدم قطعيت  Zadeh L. A., Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1(1), 3-28. 1978.  Dubois D., Prade H., Possibility theory. New York, London. 1988.  Shafer G., A Mathematical Theory Of Evidence, Princeton University Press, Princeton, NJ, 1976.  Zimmermann H.J., Fuzzy Set Theory And Its Applications, 3rd edition, Kluwer Academic Publishers, 1996. 76/75 مراجع اصلي تشخيص صحبت Schmid P., Explicit N-Best Formant Features for Segment-Based Speech Recognition. PhD Thesis. Oregon graduate Institute of Science and Technology. 1996.  YU H.J., OH Y.H., Fuzzy Expert System for Continuous Speech Recognition. Expert Systems With Applications, Vol. 9. No. 1, pp. 81-89, 1995.  Hermansky H. ,"Should recognizers have ears?". In Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, pp. 1-10, France 1997.  Greenberg, S., "Understanding speech understanding - towards a unified theory of speech perception". Proceedings of the ESCA Tutorial and Advanced Research Workshop on the Auditory Basis of Speech Perception, Keele, England, p. 1-8, 1996.  76/76

51,000 تومان