مدل سازی زبانی
اسلاید 1: Language ModelingMohammad BahraniFeb 2011In the name of God
اسلاید 2: مدل سازي زباني (Language Modeling)مدل زباني نحوۀ رخداد توالي كلمات در زبان را مدلسازي مي كند.مدل زباني:آماريساختاريمدل زباني آماري به يك دنباله از كلمات زبان مانند W=w1w2…wm يك احتمال P(W) نسبت مي دهد.It must be recognized that the notion “probability of a sentence” is an entirely useless one, under any known interpretation of this term. (Noam Chomsky) مدل زباني ساختاري با استفاده از يك سري قواعد زباني نحوه توالي لغات را مشخص مي كند.
اسلاید 3: مدل سازي زبانيسطوح مختلف مدل سازي زبانيواژگاني محلينحويمعناييكاربردهاي مدل زبانيپيش بيني كلماتبازشناسي گفتاردرك زبان طبيعيترجمة ماشينيبازشناسي نويسههاي نوري...
اسلاید 4: شمارش كلماتمعمولاً اولين قدم در مدل سازي آماري زبان، شمارش انواع كلمات در يك پيكره متني مي باشد.پيكره متني: مجموعه اي بزرگ از متون مختلف كه از منابع گوناگون گردآوري شده اند.تعداد كل كلمات (word tokens) در پيكره هاي متني در حد چند صد ميليونتعداد انواع كلمات (word types) در حد چند صد هزار يا چند ميليون (بسته به نوع متون)قبل از شمارش كلمات معمولاً پيكره متني بايد قطعه بندي و نرمال سازي شود.
اسلاید 5: شمارش كلماتشمارش كلمات: تعيين انواع word typeها در پيكره متني و تعداد رخداد هر يك از آنهابا يك بار پيمايش پيكره متني مي توان تعداد انواع كلمات (word typeها) را در پيكره متني شمارش كرد.در يك پيكرۀ متني بزرگ از متون واقعي معمولاً تعداد كمي از كلمات با فراواني بالا و تعداد زيادي از كلمات با فراواني پايين رخ مي دهند.معمولاً stop wordها بيشترين فراواني را در پيكره متني دارند.
اسلاید 6: شمارش كلمات: قانون Zipfقانون Zipf (Zipf’s law):كلمات موجود در پيكره متني را برحسب فراواني (از بيشتر به كمتر) مرتب مي كنيم و به ترتيب به آنها رتبه (rank) 1 تا N مي دهيم.Zipf مشاهده كرد كه بين فراواني كلمات و رتبۀ آنها يك تناسب معكوس وجود دارد.f(w): فراواني كلمه wz(w): رتبه كلمه wC و a: مقادير ثابت (پارامترهاي مدل(
اسلاید 7: شمارش كلمات: قانون Zipfبين لگاريتم فراواني و لگاريتم رتبه رابطۀ خطي وجود دارد.پارامترهاي C و a را مي توان براي هر پيكرۀ متني محاسبه كرد.
اسلاید 8: شمارش كلماتدر بسياري از كاربردها كلمات پرتكرارتر پيكره متني به عنوان مجموعه لغات (lexicon) انتخاب مي شوند.دو راه براي انتخاب كلمات پرتكرار:گذاشتن حد آستانه برروي تعداد كلمات انتخابي (مثلاً 10000 كلمۀ پركاربردتر)گذاشتن حد آستانه برروي فراواني كلمات (مثلاً انتخاب كلمات با فراواني بالاتر از 10(در بعضي از كاربردها مانند كاربردهاي بازيابي اطلاعات stop wordها معمولاً از ليست كلمات حذف مي شوند.بسته به كاربرد ممكن است فقط ريشۀ كلمات انتخابي را در lexicon قرار دهيم.علاوه بر كلمات پركاربرد، كلمات ديگري نيز بسته به نياز ممكن است در lexicon وارد شود.
اسلاید 9: مدل n-gramمدل n-gram:ساده ترين و پركاربردترين مدل زباني آمارياحتمال رخداد يك كلمه پس از دنباله اي از n-1 كلمهاحتمال دنباله لغات W=w1w2…wm در حالت كلي:وقتي m بزرگ باشد، محاسبۀ احتمال فوق بسيار مشكل و در عمل غيرممكن است.
اسلاید 10: مدل n-gramدر عمل تعداد كلمات قبلي به n-1 كلمه محدود مي شود و مدل حاصل n-gram ناميده مي شود.مقادير معمول n: بين 1 تا 5n=1: monogram (unigram)n=2: bigramn=3: trigramn=4: quadrigram (4-gram)n=5: 5-gram
اسلاید 11: مدل n-gramبراي n=1 (مدل monogram)براي n=3 (مدل trigram)
اسلاید 12: استخراج مدل n-gramمدل هاي n-gram با استفاده از شمارش دنبالۀ كلمات در يك پيكره متني بزرگ به دست مي آيند:ابتدا تمام انواع كلمات پيكره شمارش مي شود و يك lexicon شامل V كلمه از كلمات پركاربرد (و ساير كلمات موردنظر) تعيين مي گردد.ساير كلمات همگي با يك نماد مشخص به عنوان كلمه خارج از واژگان (OOV) جايگزين مي شوند.سپس پيكره از ابتدا تا انتها پيمايش شده و تمام تركيبات دوتايي، سه تايي، ... و nتايي از كلمات واژگان (و همچنين نماد OOV) شمارش مي شود.
اسلاید 13: استخراج مدل n-gramپس از شمارش تركيب هاي دوتايي، سه تايي و ... احتمالات n-gram محاسبه مي شوند.مدل monogramمدل bigramمدل trigram
اسلاید 14: استخراج مدل n-gramماتريس شمارش هاي bigramماتريس احتمالات bigram
اسلاید 15: استخراج مدل n-gramتعداد پارامترهاي مدل n-gram با افزايش n به طور نمايي رشد مي كند.تعداد پارامترهاي مدل bigram: V2تعداد پارامترهاي مدل trigram: V3تعداد پارامترهاي مدل n-gram: Vnمعمولاً V از مرتبۀ چندهزار است بنابراين تعداد پارامترهاي مدل n-gram بسيار زياد است.در عمل بسياري از اين پارامترها صفر هستند، يعني دنباله كلمات مربوط به آنها در پيكره متني رخ نداده است.به دليل كم بودن حجم پيكره متنيبه دليل مجاز نبودن بعضي از دنباله هاي كلمات در زبانبنابراين نحوۀ ذخيرۀ مدل هاي n-gram در حافظۀ كامپيوتر به صورت ماتريس sparse مي باشد.
اسلاید 16: هموارسازي (Smoothing)وجود احتمال هاي صفر در مدل n-gram محاسبات را در عمل با مشكل مواجه مي كند زيرا باعث مي شود احتمال بسياري از جمله هاي جديد برابر با صفر گردد.راه حل: استفاده از روش هاي هموارسازي يا smoothingروش هاي هموارسازي سعي مي كنند احتمال رخدادهاي ديده نشده را به نحوي تخمين بزنند.
اسلاید 17: هموارسازيساده ترين روش هموارسازي: اضافه كردن عدد 1 به تمام شمارش ها (روش Add-One)روش Add-One روش مؤثري نيست چون تغيير زيادي در احتمالات غيرصفر مي دهد.روش هاي ديگر هموارسازي: استفاده از روش هاي تخفيف (discounting)
اسلاید 18: هموارسازيتخفيف (discounting)به منظور هموارسازي، از شمارش هاي غيرصفر كاسته شده و برروي شمارش هاي صفر توزيع مي گردد.كاستن از شمارش هاي غيرصفر با استفاده از روش هاي تخفيف صورت مي گيرد.: شمارش اوليهr* : شمارش تخفيف داده شدهdr : ضريب تخفيف
اسلاید 19: هموارسازيروش هاي تخفيف (discounting)Good-Turingخطي (linear)مطلق (absolute)
اسلاید 20: هموارسازيتوزيع شمارش هاي كسرشده برروي شمارش هاي صفر:توزيع بايد طوري صورت گيرد كه مجموع احتمالات n-gram در هر سطر از ماتريس برابر با 1 گردد.توزيع شمارش هاي كسرشده از bigramها برروي شمارش هاي صفربا فرض اينكه P(wi|wi-1)=0 تخمين جديد P(wi|wi-1) به روش زير به دست مي آيد:β(w): مجموع احتمالات كاسته شده
اسلاید 21: هموارسازيعقب گرد (back off)زماني كه يك n-gram وجود نداشته باشد سراغ n-gramهاي با درجة پايين تر مي رويم.روش عقب گرد Katz:
اسلاید 22: ارزيابي مدل هاي زبانيسرگشتگي (perplexity): ميانگين فاكتور انشعاب: تعداد كلمات ممكن بعد از هر كلمه به طور ميانگينمدل زباني قوي تر، سرگشتگي كمتري را نتيجه مي دهد.پيكره متني به دو بخش آموزش و آزمون تقسيم مي شود و سرگشتگي برروي مجموعه آزمون محاسبه مي گردد.سرگشتگي يك رشته از M كلمه:احتمال رشته كلمات از مدل n-gram به دست مي آيد.
اسلاید 23: ارزيابي مدل هاي زبانيسرگشتگي يك رشته از M كلمه:احتمال رشته كلمات از مدل n-gram به دست مي آيد.آنتروپي (entropy): معيار ديگر ارزيابي مدل هاي زبانيروش ديگر ارزيابي مدل زباني:به كارگيري در سيستم بازشناسي گفتار پيوسته و ارزيابي ميزان خطاي بازشناسي
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.