سایر تحقیق و پژوهش

بررسی روش انسان در تشخیص صحبت و شبیه سازی آن

Ravesh_ensan_dar_tashkhis_sohbat_va_shabihsazie_Aan

در نمایش آنلاین پاورپوینت، ممکن است بعضی علائم، اعداد و حتی فونت‌ها به خوبی نمایش داده نشود. این مشکل در فایل اصلی پاورپوینت وجود ندارد.




  • جزئیات
  • امتیاز و نظرات
  • متن پاورپوینت
منتشرکننده‌ی پاورپوینت
4037 بازدید

امتیاز

درحال ارسال
امتیاز کاربر [0 رای]

نقد و بررسی ها

هیچ نظری برای این پاورپوینت نوشته نشده است.

اولین کسی باشید که نظری می نویسد “بررسی روش انسان در تشخیص صحبت و شبیه سازی آن”

بررسی روش انسان در تشخیص صحبت و شبیه سازی آن

اسلاید 1: بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آنسيد کمال‌الدين غياثي شيرازيبه نام خدا28/10/1383دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف

اسلاید 2: 2/76مطالبشناخت انسان و سيگنال صحبتسيستم استخراج ويژگي سيستم بازشناسيآزمايش‌ها

اسلاید 3: 3/761- بررسي روش انسان در تشخيص صحبت

اسلاید 4: 4/76محدوديت‌هايي که روش‌هاي موجود ايجاد مي‌کنندغير قابل تفسيرمبتني بر مدل (معمولا HMM)وابسته به اطلاعات زبانيبدون قابليت کشف صدا‌هاي جديدمبتني بر نظريه احتمال هستند که شواهد زيادي نشان مي‌دهند که انسان بر مبناي اين نظريه کار نمي‌کندپيوند غير طبيعي با سطوح بالاتر زباني مانند کلمه و گرامر و نيز مبتني بودن بر مدل زبانيخلاصه: همه مشکلات از بالا به پايين حل مي‌شوند (ما راه حل را کشف مي‌کنيم و به کامپيوتر مي‌دهيم)

اسلاید 5: 5/76توليد ابزاردستکاري سيگنال در فرکانس pitchدستکاري سيگنال در فضاي طيف‌نگاردستکاري سيگنال در فضاي بانک فيلتر

اسلاید 6: 6/76ويژگي‌هاي سيگنال صحبت؟فازيغير دقيقاهميت ويژگي‌ها با انرژي آنها متناسب استمبتني بر نظريه امكان

اسلاید 7: 7/76سيگنال صحبت فازي استدر مثال بعد مي‌بينيم که حرف «ي» مي‌تواند به‌جاي حرف «ن» به‌کار رود.به عبارت ديگر «ي» و «ن» بودن مفهومي فازي است که داراي اشتراک ذاتي است.نکته: ولي مي‌توان (امکان دارد) «ي» را به عنوان «ن» پذيرفت.س: احتمال اينکه کسي «ي» را مانند «ن» بگويد چقدر است؟

اسلاید 8: 8/76“i” + “N” + “A”

اسلاید 9: 9/76“i” + “A”

اسلاید 10: 10/76“i” + “A”

اسلاید 11: 11/76سيگنال صحبت غير دقيق است.يعني ما نسبت به مقدار ويژگي‌ها خيلي حساس نيستيم.

اسلاید 12: 12/76

اسلاید 13: 13/76كوانته شدن در فضاي بانك فيلتر

اسلاید 14: 14/76كوانته شدن در فضاي طيف‌نگار

اسلاید 15: 15/76ويژگي‌هاي پر انرژي مهم‌ترند (مثال 1)

اسلاید 16: 16/76“M” + “A” “N” + “A”

اسلاید 17: 17/76“N” + “A” “M” + “A”

اسلاید 18: 18/76ويژگي‌هاي پر انرژي مهم‌ترند (مثال 2)

اسلاید 19: 19/76Clean Speech

اسلاید 20: 20/76سيگنال نويزي

اسلاید 21: 21/76تشخيص مبتني بر نظريه امكان استيعني در مواردي كه چيزي مبهم است (يعني چند تفسير ممكن وجود دارد) ، آن را آنطور كه مي‌خواهيم تفسير مي‌كنيم.ما آنچه را که دوست داريم مي‌شنويم نه آنچه را که هست.

اسلاید 22: 22/76به‌جاي t از نويز سفيد استفاده شده است.

اسلاید 23: 23/76تفاسير متداول از فازي که مد نظر ما نيستافزايش سرعتسيستم‌هاي مبتني بر قانونعملگر‌هاي قابل تنظيماينها درست هستند اما روح فازي نيستند.

اسلاید 24: 24/76مفاهيم اساسي فازيتنظيم رابطه بين درستي گزاره و دقت گزارهکدام جمله درست‌تر است؟کدام جمله دقيق‌تر است؟قد من 183.899898767 سانتيمتر استقد من بين 1.70 تا 2 متر استخلاصه: کاهش دقت و افزايش درستي، اطمينان، استحکام و قطعيت

اسلاید 25: 25/76مشکل مبهم بودن همه چيزاگر همه‌چيز داراي ابهام است پس ما چگونه مي‌توانيم صحبت بدون معني را 100٪ تشخيص دهيم؟تشخيص صحبت بدون معني،با وجود نويز سفيد، به همراه صداهاي ناشناخته (مثل بوق ماشين)، با قطعيت؟کدام‌يک را انتخاب مي‌کنيد؟تاسي را بياندازيم و اگر 6 نيامد 60 ميليون تومان.اميد رياضي = 50قطعا 40 ميليون توماناميد رياضي = 40انسان قطعيت را دوست دارد (+ مثالي از تفاوت احتمال با تفکر انسان).

اسلاید 26: 26/76تفسير ما از فازي بودن سيگنال صحبتواج‌ها مجموعه‌هايي فازي هستند.اما در سيگنال صحبت بخش‌هايي هستند که آنها را شيء مي‌ناميم و اين اشياء با قطعيت قابل تميز هستند. (الزام)همچنين اشيائي هستند که تفاوت کمي با هم دارند مانند «م» و «ن» که در آنها دقيق نمي‌شويم. (امکان)«م» و «ن» مجموعه‌هايي فازي هستند (امکان) ولي گذر آنها به واج «آ» کاملا متمايز است (الزام).

اسلاید 27: 27/76نظريه امکانهدف: تشخيص صحبت ممکن. آنچه سيستم‌هاي کنوني (از جمله سيستم من) تشخيص مي‌دهند غير ممکن است چه برسد به محتمل.احتمال: محتمل‌ترين مدلي که اين سيگنال را توليد کرده است.امکان: اين مشاهده توسط کدام مدل‌ها قابل توليد است.خلاصه نظريه امکان:امکان A= ميزان شدني بودن Aامکان Ac= ميزان شدني بودن AcPoss(A) و Poss(Ac) مي‌توانند هر مقدار دلخواهي داشته باشند.

اسلاید 28: 28/76استفاده از نظريه امکان براي جهل وکشفPoss(A)=1 Poss(Ac) =0 APoss(A)=0 Poss(Ac) =1 AcPoss(A)=1 Poss(Ac) =1 نمي‌دانمPoss(A)=0 Poss(Ac) =0 نويز=شيء جديددر نظريه احتمال که P(A)+P(Ac)=1 نمي‌دانم و کشف را نداريم. نکته: نمي‌دانم و کشف نويز همان چيز‌هايي هستند که به ما اجازه مي‌دهند با قطعيت حرف بزنيم. وقتي کسي فقط راجع به چيز‌هايي که مي‌داند حرف مي‌زند صحبتش قابل اعتماد‌تر است.

اسلاید 29: 29/76مطلوبات در مورد بخش استخراج ويژگياستخراج ويژگي‌ها در 200ms تا چيزي که بتوان با قطعيت راجع به آن حرف زد وجود داشته باشد.مبتني بر ويژگي‌هاي شنيداري و بخش‌بندي بر اساس اشياءيک دليل براي اينکه توانايي صحبت کردن پس از توانايي شنيدن شکل مي‌گيرد اين است که کودکان به زبان خودشان حرف مي‌زنند ولي به زبان خودشان نمي‌شنوند.داراي دقتي مشابه انسان نسبت به مقدار ويژگي‌هاداراي استحکام بيشتر در مقابل نويز

اسلاید 30: 30/76مطلوبات در مورد سيستم بازشناسيمبتني بر مدل نبودنمبتني بر نظريه امکانقابليت کشف اشياء جديدچون صحبت را خوب مي‌شناسيم اشياء جديد را نيز تشخيص مي‌دهيم.داراي پيچيدگي محاسباتي کمتر به علت استفاده از عملگر‌هاي Max و Minهدف: قطعيت در تشخيص صحبت.

اسلاید 31: 31/76س: چگونه با مدلي ساده مي‌خواهيد تنوع صحبت را پوشش دهيد؟تطبيق در حين تشخيص. تغيير دادن پارامتر‌ها در جهت رسيدن به يک حالت ممکن و سپس افزايش مقدار امکان. چون حالات ممکن کم هستند، رسيدن به يکي از حالات ممکن خود گواه درستي راه است. (مشابه روش ML در نظريه احتمال)استفاده از چند مدل ساده. براي هر گونه از صحبت يک مدل ساده در نظر مي‌گيريم.خلاصه: نمونه را تغيير مي‌دهيم تا شبيه يکي از مدل‌ها شود.

اسلاید 32: 32/76روش پيشنهادي براي سيستم تشخيص صحبتايده اصلي: تغيير پارامتر‌ها در جهت شنيدن يک صداي ممکن

اسلاید 33: 33/762- بخش‌بندي و استخراج ويژگي

اسلاید 34: 34/76اهداف سيستم بخش‌بنديمبتني بر مفهوم شيء که بدون اطلاعات زباني به دست مي‌آيد. در اين صورت مي‌توان توقع داشت که اشياء بزرگ‌تري مانند کلمه و جمله بر اساس اشياء کوچک‌تر شکل بگيرند. رابطه خوب با نوعي از نمايش دانش به نام گراف مفهومي که از انسان الهام گرفته است. در اين روش اشياء جديد با ارتباط برقرار کردن بين اشياء قبلي ساخته مي‌شوند.استخراج ويژگي‌ها در زمان و فرکانس (200ms)قابل تفسير بودن. در اينصورت مي‌توان از اطلاعات انسان در خواندن طيف‌نگار استفاده کرد.

اسلاید 35: 35/76روش بخش‌بندي و استخراج ويژگي OBSFEمحاسبه انرژي باند‌هاي فيلتر در قاب‌ها.تقريب زدن خط سير انرژي در هر باند فيلتر با خط. به دست آوردن اشياء. با استفاده از تقريب خطي سيگنال خط سير.بخش‌بندي سيگنال صحبت. استخراج ويژگي در هر بخش. ]در مرحله آموزش[ به دست آوردن صدك‌ها براي هر ويژگي.بيان مقدار هر ويژگي با عددي صحيح بين 0 تا 100.

اسلاید 36: 36/76خط سير انرژي در باند فيلتر 6‌ام

اسلاید 37: 37/76تقريب زدن خط سير با خط

اسلاید 38: 38/76پيدا کردن اشياء ممکن در هر بانک فيلتر

اسلاید 39: 39/76شيءشيئ بزرگ‌ترين شکل محدب در خط سير است.ايده اصلي: شکل‌هاي محدب در سيگنال انرژي بيانگر اراده گوينده در توليد انرژي در زمان مشخصي هستند. توليد انرژياطمينان از ظهور شيءعدم توليد انرژي

اسلاید 40: 40/76بخش‌بندي بر اساس کوچکترين اشياء

اسلاید 41: 41/76ويژگي‌هاي بخش‌بندي پس از بخش‌بندي يک مجموعه کاملا مرتب از بازه‌هاي زماني داريم که داراي همپوشاني هستند.اولين الگوريتم بخش‌بندي است که بخش‌ها داراي همپوشاني هستند (تا آنجا که ما ديده‌ايم).قابل تفسير است. کاهش شديد تعداد بردار‌هاي ويژگي نسبت به سيستم‌هاي مبتني بر قاب. در مثال قبل 104 قاب به 9 بخش ساده شده است.داراي تفکيک مناسب در زمان و فرکانس

اسلاید 42: 42/76استخراج ويژگيبه هرحال يک بازه زماني به عنوان يک بخش داده مي‌شود.خط سير‌هاي انرژي را با اين بازه زماني قطع مي‌دهيم و حاصل را با يک يا دو خط تقريب مي‌زنيم.ويژگي اول همان طول بخش است.براي هر باند فيلتر ويژگي‌هاي زير را حساب مي‌کنيم:بيشينه انرژيميزان تقعر يا تحدبشيب خطمرکز ثقل

اسلاید 43: 43/76استخراج ويژگيبدين ترتيب 24×4+1=97 ويژگي استخراج مي‌شود.اگر بخواهيم با HMM کار کنيم 24 ويژگي را با DCT به 12 عدد کاهش مي‌دهيم و به 49 ويژگي مي‌رسيم.در هنگام کار با پايگاه داده Aurora2 از 18 باند فيلتر استفاده مي‌کنيم. در نتيجه 9×4+1 = 37 ويژگي خواهيم داشت.اکنون ديگر ويژگي‌ها صرفا فرکانسي نيستند. ويژگي‌ها اکنون ماهيت زماني-فرکانسي دارند.با توجه به کار‌هاي ديگران توقع داريم که ويژگي‌هاي زماني-فرکانسي مقاوم‌تر باشند.

اسلاید 44: 44/76کوانته کردن ويژگي‌ها بر حسب صدک‌هابا توجه به آماري که از روي داده آموزشي به دست مي‌آيد، هر مقدار ويژگي به عددي صحيح بين 0 تا 100 نگاشته مي‌شود.مزايا:سرعت بسيار بيشترحافظه کمتر در ذخيره مقدار ويژگي. البته در مجموع حافظه بيشتري مصرف مي‌شود.عدم نياز به مدلي براي نشان دادن فضاي پيوسته. بدين ترتيب امکان توليد سيستم داده‌محور فراهم مي‌شود.رهايي از مفهوم مخلوط که در روش‌هاي مبتني بر مدل بايد براي رفع ضعف‌هاي مدل فرض شده (مانند تابع نرمال) استفاده شود.

اسلاید 45: 45/76مقايسه MFCC و OBSFE توسط سيستم HTK

اسلاید 46: 46/76نويز‌هاي نوع 1 و 2نتايج تنها بر روي نويز‌هايي که شيء جديد اضافه نمي‌کنند بالا رفت.مقصر؟ سيستم استخراج ويژگي يا سيستم بازشناسينکته: به نظر مي‌رسد که بخش اعظم تفاوت 92٪ با 99٪ در بهينه نبودن سيستم در بخش پيش‌پردازش است. Subway, Exhibition, StreetSubway, Exhibition, StreetBabble, Car, restaurent, Airport, StationBabble, Car, restaurent, Airport, Station OBSFEMFCCOBSFEMFCCClean91.3499.0491.4599.0120dB89.296.3989.8792.5815dB81.6591.3385.4880.1410dB64.173.8371.0857.075dB32.9445.1539.5930.03

اسلاید 47: 47/76مقايسه OBSFE با MFCC در تشخيص کلمهمزاياي OBSFEمقاومت بيشتر در مقابل نويزقابل تفسير بودن ويژگي‌هاکاهش تعداد بر‌دار‌هاي ويژگي به حداقل يک پنجم تعداد قاب‌ها در MFCCسريع‌تر براي سيستم بازشناسيمزاياي MFCCپياده‌سازي ساده‌تر (بويژه از نظر سخت‌افزاري)4٪ نتيجه بالاتر در محيط کاملا تميز

اسلاید 48: 48/76فرآيند بازشناسي

اسلاید 49: 49/76مساله بازشناسي از ديدگاه عملگر‌هاي فازي

اسلاید 50: 50/76P(M) کجاست؟احتمال:امکان:

اسلاید 51: 51/76kkshkkkskkkkkkkkshkchkkkkktkkeeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkkskssskk1- تهيه ليستي از واج‌هاي ممکن براي هر شيء

اسلاید 52: 52/76kshkkkskkkkkkkkshkchkkkkktkkeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkskssskk2- حذف نويز

اسلاید 53: 53/763- يافتن کوتاه‌ترين دنباله واجيkshkkkskkkkkkkkshkchkkkkktkkeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkskssskk

اسلاید 54: 54/76kshkkkskkkkkkkkshkchkkkkktkkeeeaeeereyeeeeeeeeeeeeeeeeejjjjjjjjjjjjkjkjjbkjkQkchpdkdchdjktkkkkkkkAkskssskk4- حذف واج‌هاي کوتاهJ k e

اسلاید 55: 55/76توزيع امکان مثبت مخلوطي از ae

اسلاید 56: 56/76توزيع امکان منفي مخلوطي از ae

اسلاید 57: 57/76تفاضل دو توزيع

اسلاید 58: 58/76محاسبه شباهت اوليه (Non-discriminative)در اين مرحله به دنبال تابعي هستيم که ميزان شباهت بردار ويژگي را با گروه بيان نمايد. در HMM نيز اين مرحله با شبکه عصبي کمي بهتر انجام مي‌شود. عملگر min براي اين کار مناسب نيست.اگر Π(O|A)<T آنگاه O شبيه به A نيست.

اسلاید 59: 59/76مقايسه عملگر‌هاي مختلف براي ترکيب ويژگي‌ها

اسلاید 60: 60/76محاسبه شباهت ثانويه (Discriminative)اگر Π(O|A)>Tخلاصه: به تفاوت‌هاي بين مدل مثبت و منفي اهميت بيشتري مي‌دهيم.0.9 در مقابل 0.7 کم‌اهميت‌تر از 0.3 در مقابل 0.1 است.

اسلاید 61: 61/76محاسبه شباهت بردار ويژگي O به واج Aاگر Similarity+<Similarity- آنگاه O به A شبيه نيست.در غير اين صورت داريم:در نهايت تمام مقادير شباهت توسط اندازه‌گيري امکاني اصلاح ‌شده قابل تفسير مي‌شوند.

اسلاید 62:

اسلاید 63: اشياء با 4 نام ممکناشياء و نام گروه مربوط به آنهافرآيند آموزشدر اين مرحله مقدار عددي امکان نيز داراي معني مي‌شود.

اسلاید 64: 64/76تعيين امکان مثبت براي هر واحد آوايي-شنواييفرض کنيم نمونه‌هاي واحد آوايي-شنوايي A را مي‌شناسيم.i = يکي از ويژگي‌هاj = عددي بين 0 تا 100NA(i,j) برابر تعداد دفعاتي است که ويژگي i مقدار j را گرفته است.

اسلاید 65: 65/76تعيين امکان منفي براي هر واحد آوايي-شنواييفرض کنيم ΠA(i,j) را داريم. از روي آن نمونه‌هاي واحد‌هاي آوايي-شنوايي ديگر را که شبيه A هستند را مي‌شناسيم.i = يکي از ويژگي‌هاj = عددي بين 0 تا 100M~A(i,j) برابر تعداد دفعاتي است که در يکي از نمونه‌هايي که به اشتباه امکان A بودن آنها بالا است ويژگي i مقدار j را گرفته است.

اسلاید 66: 66/764- آزمايش‌ها

اسلاید 67: 67/764- آزمايش‌هاکلمه (تشخيص اعداد انگليسي بر روي دادگان Aurora2)مقايسه MFCC و OBSFE با سيستم بازشناسي HTK واج (تشخيص واج‌هاي زبان فارسي بر روي دادگان فارس‌دات) مقايسه HMM با سيستم بازشناسي ما بر روي ويژگي‌هاي mfcc.مقايسه HMM با سيستم بازشناسي ما برروي ويژگي‌هاي OBSFEمقايسه HMM با سيستم بازشناسي ما در حضور اشياء ناشناخته.

اسلاید 68: 68/76مقايسه MFCC و OBSFE توسط سيستم HTK

اسلاید 69: 69/76تشخيص واج بر روي لهجه تهراني فارس‌دات سيستم بازشناسي امکانيمدل مخفي مارکوفMFCC49.33%66٪OBSFE36٪22٪OBSFE به همراه 100% نويز36٪?

اسلاید 70: 70/76بررسي تاثير ساده‌سازي ها در تشخيص کلمهتقريب زدن با خط97.11٪ 95.76٪ کوانته کردن به 100 مقدار98.93٪98.22٪

اسلاید 71: 71/76بررسي تاثير ساده‌سازي ها در تشخيص واجتقريب زدن با خط61٪60٪کوانته کردن به 100 مقدار67٪65٪

اسلاید 72: 72/76نتايج از ديدگاه فرار از محدوديت‌ها و شناخت بهتراستخراج ويژگي‌ها در قاب فضاي ويژگي‌هاي پيوستهدقت بالا در مقدار ويژگي‌هانظريه احتمالمبتني بر مدل بودن+ قابل تفسير بودننتايج نيز براي ادامه کار اميد‌بخش هستند.

اسلاید 73: 73/76نتايج از ديدگاه مشابهت به روش انساناستخراج ويژگي در زمان-فرکانس که استحکام را بالا مي‌برد.کار با مفهوم شيء که از اطلاعات زباني مستقل است.مبتني بر مدل نبودناستفاده از نظريه امکان که با توجه به آزمايش‌هاي ما براي تشخيص صحبت طبيعي‌تر است.دقتي در حد 100 سطح. آزمايش‌هاي ما نشان مي‌دهد که انسان‌ها نيز به جزئياتي بيش از اين حساس نيستند.

اسلاید 74: 74/76با تشکر از...دکتر باقري و دکتر رضوي‌زاده بخاطر تشويق‌ها، راهنمايي‌ها و انتقال تجربيات گرانقدرشاندکتر ثامتي بخاطر آشنا کردن من با روش‌هاي متداول تشخيص صحبت و در اختيار گذاشتن تمام امکاناتشان و صبر زيادشاندوستانم در شرکت عصر گويشو شما بخاطر حضورتان.

اسلاید 75: 75/76مراجع اصلي نظريه‌هاي عدم قطعيتZadeh L. A., Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems, 1(1), 3-28. 1978.Dubois D., Prade H., Possibility theory. New York, London. 1988.Shafer G., A Mathematical Theory Of Evidence, Princeton University Press, Princeton, NJ, 1976.Zimmermann H.J., Fuzzy Set Theory And Its Applications, 3rd edition, Kluwer Academic Publishers, 1996.

اسلاید 76: 76/76مراجع اصلي تشخيص صحبتSchmid P., Explicit N-Best Formant Features for Segment-Based Speech Recognition. PhD Thesis. Oregon graduate Institute of Science and Technology. 1996.YU H.J., OH Y.H., Fuzzy Expert System for Continuous Speech Recognition. Expert Systems With Applications, Vol. 9. No. 1, pp. 81-89, 1995.Hermansky H. ,Should recognizers have ears?. In Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels, pp. 1-10, France 1997.Greenberg, S., Understanding speech understanding - towards a unified theory of speech perception. Proceedings of the ESCA Tutorial and Advanced Research Workshop on the Auditory Basis of Speech Perception, Keele, England, p. 1-8, 1996.

34,000 تومان

خرید پاورپوینت توسط کلیه کارت‌های شتاب امکان‌پذیر است و بلافاصله پس از خرید، لینک دانلود پاورپوینت در اختیار شما قرار خواهد گرفت.

در صورت عدم رضایت سفارش برگشت و وجه به حساب شما برگشت داده خواهد شد.

در صورت بروز هر گونه مشکل به شماره 09353405883 در ایتا پیام دهید یا با ای دی poshtibani_ppt_ir در تلگرام ارتباط بگیرید.

افزودن به سبد خرید