بررسی روش انسان در تشخیص صحبت و شبیه سازی آن
اسلاید 1: بررسي روش انسان در تشخيص صحبت و شبيهسازي آنسيد کمالالدين غياثي شيرازيبه نام خدا28/10/1383دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف
اسلاید 2: 2/76مطالبشناخت انسان و سيگنال صحبتسيستم استخراج ويژگي سيستم بازشناسيآزمايشها
اسلاید 3: 3/761- بررسي روش انسان در تشخيص صحبت
اسلاید 4: 4/76محدوديتهايي که روشهاي موجود ايجاد ميکنندغير قابل تفسيرمبتني بر مدل (معمولا HMM)وابسته به اطلاعات زبانيبدون قابليت کشف صداهاي جديدمبتني بر نظريه احتمال هستند که شواهد زيادي نشان ميدهند که انسان بر مبناي اين نظريه کار نميکندپيوند غير طبيعي با سطوح بالاتر زباني مانند کلمه و گرامر و نيز مبتني بودن بر مدل زبانيخلاصه: همه مشکلات از بالا به پايين حل ميشوند (ما راه حل را کشف ميکنيم و به کامپيوتر ميدهيم)
اسلاید 5: 5/76توليد ابزاردستکاري سيگنال در فرکانس pitchدستکاري سيگنال در فضاي طيفنگاردستکاري سيگنال در فضاي بانک فيلتر
اسلاید 6: 6/76ويژگيهاي سيگنال صحبت؟فازيغير دقيقاهميت ويژگيها با انرژي آنها متناسب استمبتني بر نظريه امكان
اسلاید 7: 7/76سيگنال صحبت فازي استدر مثال بعد ميبينيم که حرف «ي» ميتواند بهجاي حرف «ن» بهکار رود.به عبارت ديگر «ي» و «ن» بودن مفهومي فازي است که داراي اشتراک ذاتي است.نکته: ولي ميتوان (امکان دارد) «ي» را به عنوان «ن» پذيرفت.س: احتمال اينکه کسي «ي» را مانند «ن» بگويد چقدر است؟
اسلاید 8: 8/76“i” + “N” + “A”
اسلاید 9: 9/76“i” + “A”
اسلاید 10: 10/76“i” + “A”
اسلاید 11: 11/76سيگنال صحبت غير دقيق است.يعني ما نسبت به مقدار ويژگيها خيلي حساس نيستيم.
اسلاید 12: 12/76
اسلاید 13: 13/76كوانته شدن در فضاي بانك فيلتر
اسلاید 14: 14/76كوانته شدن در فضاي طيفنگار
اسلاید 15: 15/76ويژگيهاي پر انرژي مهمترند (مثال 1)
اسلاید 16: 16/76“M” + “A” “N” + “A”
اسلاید 17: 17/76“N” + “A” “M” + “A”
اسلاید 18: 18/76ويژگيهاي پر انرژي مهمترند (مثال 2)
اسلاید 19: 19/76Clean Speech
اسلاید 20: 20/76سيگنال نويزي
اسلاید 21: 21/76تشخيص مبتني بر نظريه امكان استيعني در مواردي كه چيزي مبهم است (يعني چند تفسير ممكن وجود دارد) ، آن را آنطور كه ميخواهيم تفسير ميكنيم.ما آنچه را که دوست داريم ميشنويم نه آنچه را که هست.
اسلاید 22: 22/76بهجاي t از نويز سفيد استفاده شده است.
اسلاید 23: 23/76تفاسير متداول از فازي که مد نظر ما نيستافزايش سرعتسيستمهاي مبتني بر قانونعملگرهاي قابل تنظيماينها درست هستند اما روح فازي نيستند.
اسلاید 24: 24/76مفاهيم اساسي فازيتنظيم رابطه بين درستي گزاره و دقت گزارهکدام جمله درستتر است؟کدام جمله دقيقتر است؟قد من 183.899898767 سانتيمتر استقد من بين 1.70 تا 2 متر استخلاصه: کاهش دقت و افزايش درستي، اطمينان، استحکام و قطعيت
اسلاید 25: 25/76مشکل مبهم بودن همه چيزاگر همهچيز داراي ابهام است پس ما چگونه ميتوانيم صحبت بدون معني را 100٪ تشخيص دهيم؟تشخيص صحبت بدون معني،با وجود نويز سفيد، به همراه صداهاي ناشناخته (مثل بوق ماشين)، با قطعيت؟کداميک را انتخاب ميکنيد؟تاسي را بياندازيم و اگر 6 نيامد 60 ميليون تومان.اميد رياضي = 50قطعا 40 ميليون توماناميد رياضي = 40انسان قطعيت را دوست دارد (+ مثالي از تفاوت احتمال با تفکر انسان).
اسلاید 26: 26/76تفسير ما از فازي بودن سيگنال صحبتواجها مجموعههايي فازي هستند.اما در سيگنال صحبت بخشهايي هستند که آنها را شيء ميناميم و اين اشياء با قطعيت قابل تميز هستند. (الزام)همچنين اشيائي هستند که تفاوت کمي با هم دارند مانند «م» و «ن» که در آنها دقيق نميشويم. (امکان)«م» و «ن» مجموعههايي فازي هستند (امکان) ولي گذر آنها به واج «آ» کاملا متمايز است (الزام).
اسلاید 27: 27/76نظريه امکانهدف: تشخيص صحبت ممکن. آنچه سيستمهاي کنوني (از جمله سيستم من) تشخيص ميدهند غير ممکن است چه برسد به محتمل.احتمال: محتملترين مدلي که اين سيگنال را توليد کرده است.امکان: اين مشاهده توسط کدام مدلها قابل توليد است.خلاصه نظريه امکان:امکان A= ميزان شدني بودن Aامکان Ac= ميزان شدني بودن AcPoss(A) و Poss(Ac) ميتوانند هر مقدار دلخواهي داشته باشند.
اسلاید 28: 28/76استفاده از نظريه امکان براي جهل وکشفPoss(A)=1 Poss(Ac) =0 APoss(A)=0 Poss(Ac) =1 AcPoss(A)=1 Poss(Ac) =1 نميدانمPoss(A)=0 Poss(Ac) =0 نويز=شيء جديددر نظريه احتمال که P(A)+P(Ac)=1 نميدانم و کشف را نداريم. نکته: نميدانم و کشف نويز همان چيزهايي هستند که به ما اجازه ميدهند با قطعيت حرف بزنيم. وقتي کسي فقط راجع به چيزهايي که ميداند حرف ميزند صحبتش قابل اعتمادتر است.
اسلاید 29: 29/76مطلوبات در مورد بخش استخراج ويژگياستخراج ويژگيها در 200ms تا چيزي که بتوان با قطعيت راجع به آن حرف زد وجود داشته باشد.مبتني بر ويژگيهاي شنيداري و بخشبندي بر اساس اشياءيک دليل براي اينکه توانايي صحبت کردن پس از توانايي شنيدن شکل ميگيرد اين است که کودکان به زبان خودشان حرف ميزنند ولي به زبان خودشان نميشنوند.داراي دقتي مشابه انسان نسبت به مقدار ويژگيهاداراي استحکام بيشتر در مقابل نويز
اسلاید 30: 30/76مطلوبات در مورد سيستم بازشناسيمبتني بر مدل نبودنمبتني بر نظريه امکانقابليت کشف اشياء جديدچون صحبت را خوب ميشناسيم اشياء جديد را نيز تشخيص ميدهيم.داراي پيچيدگي محاسباتي کمتر به علت استفاده از عملگرهاي Max و Minهدف: قطعيت در تشخيص صحبت.
اسلاید 31: 31/76س: چگونه با مدلي ساده ميخواهيد تنوع صحبت را پوشش دهيد؟تطبيق در حين تشخيص. تغيير دادن پارامترها در جهت رسيدن به يک حالت ممکن و سپس افزايش مقدار امکان. چون حالات ممکن کم هستند، رسيدن به يکي از حالات ممکن خود گواه درستي راه است. (مشابه روش ML در نظريه احتمال)استفاده از چند مدل ساده. براي هر گونه از صحبت يک مدل ساده در نظر ميگيريم.خلاصه: نمونه را تغيير ميدهيم تا شبيه يکي از مدلها شود.
اسلاید 32: 32/76روش پيشنهادي براي سيستم تشخيص صحبتايده اصلي: تغيير پارامترها در جهت شنيدن يک صداي ممکن
اسلاید 33: 33/762- بخشبندي و استخراج ويژگي
اسلاید 34: 34/76اهداف سيستم بخشبنديمبتني بر مفهوم شيء که بدون اطلاعات زباني به دست ميآيد. در اين صورت ميتوان توقع داشت که اشياء بزرگتري مانند کلمه و جمله بر اساس اشياء کوچکتر شکل بگيرند. رابطه خوب با نوعي از نمايش دانش به نام گراف مفهومي که از انسان الهام گرفته است. در اين روش اشياء جديد با ارتباط برقرار کردن بين اشياء قبلي ساخته ميشوند.استخراج ويژگيها در زمان و فرکانس (200ms)قابل تفسير بودن. در اينصورت ميتوان از اطلاعات انسان در خواندن طيفنگار استفاده کرد.
اسلاید 35: 35/76روش بخشبندي و استخراج ويژگي OBSFEمحاسبه انرژي باندهاي فيلتر در قابها.تقريب زدن خط سير انرژي در هر باند فيلتر با خط. به دست آوردن اشياء. با استفاده از تقريب خطي سيگنال خط سير.بخشبندي سيگنال صحبت. استخراج ويژگي در هر بخش. ]در مرحله آموزش[ به دست آوردن صدكها براي هر ويژگي.بيان مقدار هر ويژگي با عددي صحيح بين 0 تا 100.
اسلاید 36: 36/76خط سير انرژي در باند فيلتر 6ام
اسلاید 37: 37/76تقريب زدن خط سير با خط
اسلاید 38: 38/76پيدا کردن اشياء ممکن در هر بانک فيلتر
اسلاید 39: 39/76شيءشيئ بزرگترين شکل محدب در خط سير است.ايده اصلي: شکلهاي محدب در سيگنال انرژي بيانگر اراده گوينده در توليد انرژي در زمان مشخصي هستند. توليد انرژياطمينان از ظهور شيءعدم توليد انرژي
اسلاید 40: 40/76بخشبندي بر اساس کوچکترين اشياء
اسلاید 41: 41/76ويژگيهاي بخشبندي پس از بخشبندي يک مجموعه کاملا مرتب از بازههاي زماني داريم که داراي همپوشاني هستند.اولين الگوريتم بخشبندي است که بخشها داراي همپوشاني هستند (تا آنجا که ما ديدهايم).قابل تفسير است. کاهش شديد تعداد بردارهاي ويژگي نسبت به سيستمهاي مبتني بر قاب. در مثال قبل 104 قاب به 9 بخش ساده شده است.داراي تفکيک مناسب در زمان و فرکانس
اسلاید 42: 42/76استخراج ويژگيبه هرحال يک بازه زماني به عنوان يک بخش داده ميشود.خط سيرهاي انرژي را با اين بازه زماني قطع ميدهيم و حاصل را با يک يا دو خط تقريب ميزنيم.ويژگي اول همان طول بخش است.براي هر باند فيلتر ويژگيهاي زير را حساب ميکنيم:بيشينه انرژيميزان تقعر يا تحدبشيب خطمرکز ثقل
اسلاید 43: 43/76استخراج ويژگيبدين ترتيب 24×4+1=97 ويژگي استخراج ميشود.اگر بخواهيم با HMM کار کنيم 24 ويژگي را با DCT به 12 عدد کاهش ميدهيم و به 49 ويژگي ميرسيم.در هنگام کار با پايگاه داده Aurora2 از 18 باند فيلتر استفاده ميکنيم. در نتيجه 9×4+1 = 37 ويژگي خواهيم داشت.اکنون ديگر ويژگيها صرفا فرکانسي نيستند. ويژگيها اکنون ماهيت زماني-فرکانسي دارند.با توجه به کارهاي ديگران توقع داريم که ويژگيهاي زماني-فرکانسي مقاومتر باشند.
اسلاید 44: 44/76کوانته کردن ويژگيها بر حسب صدکهابا توجه به آماري که از روي داده آموزشي به دست ميآيد، هر مقدار ويژگي به عددي صحيح بين 0 تا 100 نگاشته ميشود.مزايا:سرعت بسيار بيشترحافظه کمتر در ذخيره مقدار ويژگي. البته در مجموع حافظه بيشتري مصرف ميشود.عدم نياز به مدلي براي نشان دادن فضاي پيوسته. بدين ترتيب امکان توليد سيستم دادهمحور فراهم ميشود.رهايي از مفهوم مخلوط که در روشهاي مبتني بر مدل بايد براي رفع ضعفهاي مدل فرض شده (مانند تابع نرمال) استفاده شود.
اسلاید 45: 45/76مقايسه MFCC و OBSFE توسط سيستم HTK
اسلاید 46: 46/76نويزهاي نوع 1 و 2نتايج تنها بر روي نويزهايي که شيء جديد اضافه نميکنند بالا رفت.مقصر؟ سيستم استخراج ويژگي يا سيستم بازشناسينکته: به نظر ميرسد که بخش اعظم تفاوت 92٪ با 99٪ در بهينه نبودن سيستم در بخش پيشپردازش است. Subway, Exhibition, StreetSubway, Exhibition, StreetBabble, Car, restaurent, Airport, StationBabble, Car, restaurent, Airport, Station OBSFEMFCCOBSFEMFCCClean91.3499.0491.4599.0120dB89.296.3989.8792.5815dB81.6591.3385.4880.1410dB64.173.8371.0857.075dB32.9445.1539.5930.03
اسلاید 47: 47/76مقايسه OBSFE با MFCC در تشخيص کلمهمزاياي OBSFEمقاومت بيشتر در مقابل نويزقابل تفسير بودن ويژگيهاکاهش تعداد بردارهاي ويژگي به حداقل يک پنجم تعداد قابها در MFCCسريعتر براي سيستم بازشناسيمزاياي MFCCپيادهسازي سادهتر (بويژه از نظر سختافزاري)4٪ نتيجه بالاتر در محيط کاملا تميز
اسلاید 48: 48/76فرآيند بازشناسي
اسلاید 49: 49/76مساله بازشناسي از ديدگاه عملگرهاي فازي
اسلاید 50: 50/76P(M) کجاست؟احتمال:امکان:
اسلاید 51: 51/76kkshkkkskkkkkkkkshkchkkkkktkkeeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkkskssskk1- تهيه ليستي از واجهاي ممکن براي هر شيء
اسلاید 52: 52/76kshkkkskkkkkkkkshkchkkkkktkkeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkskssskk2- حذف نويز
اسلاید 53: 53/763- يافتن کوتاهترين دنباله واجيkshkkkskkkkkkkkshkchkkkkktkkeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkskssskk
اسلاید 54: 54/76kshkkkskkkkkkkkshkchkkkkktkkeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkskssskk4- حذف واجهاي کوتاهJ k e
اسلاید 55: 55/76توزيع امکان مثبت مخلوطي از ae
اسلاید 56: 56/76توزيع امکان منفي مخلوطي از ae
اسلاید 57: 57/76تفاضل دو توزيع
اسلاید 58: 58/76محاسبه شباهت اوليه (Non-discriminative)در اين مرحله به دنبال تابعي هستيم که ميزان شباهت بردار ويژگي را با گروه بيان نمايد. در HMM نيز اين مرحله با شبکه عصبي کمي بهتر انجام ميشود. عملگر min براي اين کار مناسب نيست.اگر Π(O|A)<T آنگاه O شبيه به A نيست.
اسلاید 59: 59/76مقايسه عملگرهاي مختلف براي ترکيب ويژگيها
اسلاید 60: 60/76محاسبه شباهت ثانويه (Discriminative)اگر Π(O|A)>Tخلاصه: به تفاوتهاي بين مدل مثبت و منفي اهميت بيشتري ميدهيم.0.9 در مقابل 0.7 کماهميتتر از 0.3 در مقابل 0.1 است.
اسلاید 61: 61/76محاسبه شباهت بردار ويژگي O به واج Aاگر Similarity+<Similarity- آنگاه O به A شبيه نيست.در غير اين صورت داريم:در نهايت تمام مقادير شباهت توسط اندازهگيري امکاني اصلاح شده قابل تفسير ميشوند.
اسلاید 62:
اسلاید 63: اشياء با 4 نام ممکناشياء و نام گروه مربوط به آنهافرآيند آموزشدر اين مرحله مقدار عددي امکان نيز داراي معني ميشود.
اسلاید 64: 64/76تعيين امکان مثبت براي هر واحد آوايي-شنواييفرض کنيم نمونههاي واحد آوايي-شنوايي A را ميشناسيم.i = يکي از ويژگيهاj = عددي بين 0 تا 100NA(i,j) برابر تعداد دفعاتي است که ويژگي i مقدار j را گرفته است.
اسلاید 65: 65/76تعيين امکان منفي براي هر واحد آوايي-شنواييفرض کنيم ΠA(i,j) را داريم. از روي آن نمونههاي واحدهاي آوايي-شنوايي ديگر را که شبيه A هستند را ميشناسيم.i = يکي از ويژگيهاj = عددي بين 0 تا 100M~A(i,j) برابر تعداد دفعاتي است که در يکي از نمونههايي که به اشتباه امکان A بودن آنها بالا است ويژگي i مقدار j را گرفته است.
اسلاید 66: 66/764- آزمايشها
اسلاید 67: 67/764- آزمايشهاکلمه (تشخيص اعداد انگليسي بر روي دادگان Aurora2)مقايسه MFCC و OBSFE با سيستم بازشناسي HTK واج (تشخيص واجهاي زبان فارسي بر روي دادگان فارسدات) مقايسه HMM با سيستم بازشناسي ما بر روي ويژگيهاي mfcc.مقايسه HMM با سيستم بازشناسي ما برروي ويژگيهاي OBSFEمقايسه HMM با سيستم بازشناسي ما در حضور اشياء ناشناخته.
اسلاید 68: 68/76مقايسه MFCC و OBSFE توسط سيستم HTK
اسلاید 69: 69/76تشخيص واج بر روي لهجه تهراني فارسدات سيستم بازشناسي امکانيمدل مخفي مارکوفMFCC49.33%66٪OBSFE36٪22٪OBSFE به همراه 100% نويز36٪?
اسلاید 70: 70/76بررسي تاثير سادهسازي ها در تشخيص کلمهتقريب زدن با خط97.11٪ 95.76٪ کوانته کردن به 100 مقدار98.93٪98.22٪
اسلاید 71: 71/76بررسي تاثير سادهسازي ها در تشخيص واجتقريب زدن با خط61٪60٪کوانته کردن به 100 مقدار67٪65٪
اسلاید 72: 72/76نتايج از ديدگاه فرار از محدوديتها و شناخت بهتراستخراج ويژگيها در قاب فضاي ويژگيهاي پيوستهدقت بالا در مقدار ويژگيهانظريه احتمالمبتني بر مدل بودن+ قابل تفسير بودننتايج نيز براي ادامه کار اميدبخش هستند.
اسلاید 73: 73/76نتايج از ديدگاه مشابهت به روش انساناستخراج ويژگي در زمان-فرکانس که استحکام را بالا ميبرد.کار با مفهوم شيء که از اطلاعات زباني مستقل است.مبتني بر مدل نبودناستفاده از نظريه امکان که با توجه به آزمايشهاي ما براي تشخيص صحبت طبيعيتر است.دقتي در حد 100 سطح. آزمايشهاي ما نشان ميدهد که انسانها نيز به جزئياتي بيش از اين حساس نيستند.
اسلاید 74: 74/76با تشکر از...دکتر باقري و دکتر رضويزاده بخاطر تشويقها، راهنماييها و انتقال تجربيات گرانقدرشاندکتر ثامتي بخاطر آشنا کردن من با روشهاي متداول تشخيص صحبت و در اختيار گذاشتن تمام امکاناتشان و صبر زيادشاندوستانم در شرکت عصر گويشو شما بخاطر حضورتان.
اسلاید 75: 75/76مراجع اصلي نظريههاي عدم قطعيتZadeh L. A., Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1(1), 3-28. 1978.Dubois D., Prade H., Possibility theory. New York, London. 1988.Shafer G., A Mathematical Theory Of Evidence, Princeton University Press, Princeton, NJ, 1976.Zimmermann H.J., Fuzzy Set Theory And Its Applications, 3rd edition, Kluwer Academic Publishers, 1996.
اسلاید 76: 76/76مراجع اصلي تشخيص صحبتSchmid P., Explicit N-Best Formant Features for Segment-Based Speech Recognition. PhD Thesis. Oregon graduate Institute of Science and Technology. 1996.YU H.J., OH Y.H., Fuzzy Expert System for Continuous Speech Recognition. Expert Systems With Applications, Vol. 9. No. 1, pp. 81-89, 1995.Hermansky H. ,Should recognizers have ears?. In Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, pp. 1-10, France 1997.Greenberg, S., Understanding speech understanding - towards a unified theory of speech perception. Proceedings of the ESCA Tutorial and Advanced Research Workshop on the Auditory Basis of Speech Perception, Keele, England, p. 1-8, 1996.
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.