صفحه 1:
In the name of God Language Modeling Mohammad Bahrani Feb 2011

صفحه 2:
مدل سازي زباني ‎Language)‏ ‎(Modeling‏ ‏مدل زباني نحوة رخداد توالي کلمات در زبان را مدل‌سازي مي کند. ‎O‏ مدل زباني: * آماري ساختاري ‏7 مدل زباني آماري به يك دنباله از کلمات زبان مانند ,۷۷<۱۷/,۷,۰..۷يك احتمال ‎P(W)‏ نسبت مي دهد. ‎It must be recognized that the notion “probability of a sentence” is‏ © ‎an entirely useless one, under any known interpretation of this term. (Noam Chomsky) ‎o‏ مدل زياني ساختاري با استفاده از يك سري قواعد زباني نحوه توالي لغات را مشخص مي کند. ‎

صفحه 3:
مدل سازي زباني 0 سطوح مختلف مدل سازي زباني واژگاني محلي نحوي معنايي 0 كاربردهاي مدل زباني بيش بيني كلمات بازشناسي كفتار درك زبان طبيعي ترجمة ماشيني بازشناسي نويسه‌هاي نوري

صفحه 4:
شمارش کلمات ۲ معمولاً اولین قدم در مدل سازي آماري زبان» شمارش انواع کلمات در يك پیکره متني مي باشد. ۲۳ پیکره متني: مجموعه اي بزرگ از متون مختلف که از منابع گوناگون گردآوري شده اند. * تعداد کل کلمات (101605 ۷۷0۲۵) در پیکره هاي متني در حد چند صد میلیون تعداد انواع کلمات (065 12 ۷/۵۳۵) در حد چند صد هزار یا چند میلیون (بسته به نوع متون) ۲0 قبل از شمارش کلمات معمولا پیکره متني بايد قطعه بندي و نرمال سازي شود.

صفحه 5:
شمارش کلمات ۳" شمارش کلمات: تعیین انواع ‎type‏ ۷/0۲0ها در پیکره متني و تعداد رخداد هر يك از آنها ۲ با يك بار پیمایش پیکره متني مي نوان تعداد انواع کلمات (06/ ۷/0۲۵ها) را در پیکره متني شمارش کرد. ۲ در يك پیکره متني بزرگ از متون واقعي معمولاً تعداد کمي از کلمات با فراواني بالا و تعداد زيادي از کلمات با فراواني پایین رخ مي دهند. معمولاً 010//ا م5]0ها بيشترين فراواني را در بيكره متني دارند.

صفحه 6:
شمارش کلمات: قانون 71۳۴ ‎:Zipf (Zipf’s law) os8 9‏ کلمات موجود در پیکره متني را برحسب فراواني (از بیشتر به کمتر) مرتب مي کنیم و به ترتیب به آنها رتبه (۲۵) 4 تا | مي دهیم. ‏]210 مشاهدم کرد که بین‌فراولنيکلمانتو رتبه آنها يكت ناسبمعکوس‌وجود دارد. ‎Cc ‎f(w=—_ ‎1۳۷0 aw ‏2 (۶0۷: فراولني‌کلمه ۷ (2)۷۷: رتبه کلمه ۷۷ 8 و ج: مقادیر شابت(پارلمترهایمدل ‎

صفحه 7:
شمارش کلمات: قانون 71۳۴ 21092۲0 -1096< (1091)۲ آ" بين لگاریتم فراواني و لگاریتم رتبه رابطة خطي وجود دارد. 7" پارامترهاي ) و 2 را مي توان براي هر پیکرة متني محاسبه کرد. log f(z,13250) 0 2 4 6 8 2

صفحه 8:
شمارش کلمات 7 در بسياري از کاربردها کلمات پرتکرارتر پیکره متني به عنوان مجموعه لغات (16:1600) انتخاب مي شوند. 5 دو راه براي انتخاب كلمات برتكرار: ۱ گذاشتن حد آستانه برروي تعداد کلمات انتخابي (مثلاً (00000600 کلمه پرکاربردتر) گذاشتن حد آستانه برروي فراواني کلمات (مثلاً انتخاب کلمات با فراواني بالاتر از 00[ ۲ در بعضي از کاربردها مانند كاربردهاي بازيابي اطلاعات ۷/۵۲0 5100ها معمولاً از لیست کلمات حذف مي شوند. 5 بسته به کاربرد ممکن است فقط ريشه کلمات انتخابي را در 1612017 قرار دهيم. 0 علاوه بر کلمات پرکاربرد؛ کلمات ديگري نیز بسته به نیاز ممکن است در 162160 وارد شود.

صفحه 9:
n-gram J :n-gram Jao ‏ساده ترین و پرکاربردترین مدل زباني آماري‎ # ‏احتمال رخداد يك کلمه پس از دنباله اي از 0-1 کلمه‎ * ‏احتمال دنباله لغات ,م//...,۷۷/<۱۷۷,۷۷ در حالت كلي:‎ mt 0 ‏یم‎ =] al wee) a POW) = Poy) Pv | wy) PC | wy)» P| We Wn) ‏وقتي ۲0 بزرگ باشده محاسبه احتمال فوق بسیار مشکل و در عمل غیرممکن است.‎

صفحه 10:
n-gram ‏مدل‎ 5 در عمل تعداد کلمات قبلي به ۲-1 کلمه محدود مي شود و مدل حاصل ۱-۲3۲۲ نامیده مي شود. PW) = Pome) =[] POUL Me Me) 6 ‏مقادیر معمول 0: بین 4 تا‎ # n=1: monogram (unigram) © n=2: bigram © n=3: trigram © n=4: quadrigram (4-gram) © n=5: 5-gram ©

صفحه 11:
n-gram ‏مدل‎ ‎(monogram J») 0-1 ‏براي‎ " PW) =Plw) Pw) Pw) Pw,) (trigram Jx) n=3 vie ® PW) =P) Pw, | wy) Plog | wey) Pow | 1g): PC | Woe 2 Mons)

صفحه 12:
استخراج مدل 11-0121 ‎gegen Ge Ja. O‏ با استفاده از شمارش دنبالة کلمات در يك پیکره ‏متني بزرگ به دست مي آیند: ‏ابتدا تمام انواع کلمات پیکره شمارش مي شود و يك مها شامل () کلمه از کلمات پرکاربرد (و سایر کلمات موردنظر) تعبین مي گردد. ‏# ساير کلمات همگي با يك نماد مشخص به عنوان کلمه خارج از واژگان (000) جايكزين مي شوند. ‏سيس بيكره از ابتدا نا انتها بيمايش شده و تمام تركيبات دوتايي؛ سه تايي» ... و تايي از كلمات وازكان (و همجنين نماد (06)) شمارش مي شود. ‎

صفحه 13:
استخراج مدل 11-0160 0- ‏پس از شمارش ترکیب هاي دوتايي» سه تايي و ... احتمالات‎ A ‏محاسبه مي شوند.‎ 0 مدل ۲۱۵۴۵9۲۵۲۴ ‎NY‏ هراس ‎Joa!‏ ‏ل ‎i‏ ‎bigram J»‏ اكوا ون يداي مدل ماق وا ‎Bara ts | gue) = Neuen‏ شنک

صفحه 14:
استخراج مدل 11-0712112 تا ماتریس شمارش هاي ‎bigram‏ 0 Nw) Nowy) & Mwy) =Now) Nww) 09۲۵۳ ‏ماتریس احتمالات‎ ۲" Mw ۰ ۷۲۵ ۰ ۷۲۱۸ Nw |) 1 4 ‏ار ار‎ Nww) Mwy) -- یا مار 4% نا ‎Now| w) Mw|w)‏ ليد | سك ‎Nw|w)‏ | يم Ww ۲ ۱

صفحه 15:
استخراج مدل 11-0712112 2 تعداد پارامترهاي مدل ۱-9۲۵۳0 با افزایش 0 به طور نمايي رشد مي کند. تعداد پارامترهاي مدل ۷2 :019۲۵۴0 تعداد پارامترهاي مدل ۷ :۳19۲۵۳0 _تعداد پارامترهاي مدل ۷۲ :۱-9۲3۳0 ‎o‏ لأ ۷ از مرتبه چندهزار است بنابراین تعداد پارامترهاي مدل ۱-9۲۵۳0 بسيار زياد است. ۲ در عمل رخ نداده ‏_به دلیل کم بودن حجم پیکره متني به دلیل مجاز نبودن بعضي از دنباله هاي کلمات در زبان ‏اري از اين پارامترها صفر هستند» يعني دنباله کلمات مربوط به آنها در پیکره متني ‎ ‎ ‏2 بنابراین نحوة ذخيرة مدل هاي ‎N-gram‏ در حافظة کامپیوتر به صورت ماتریس 508756 مي باشد. ‎

صفحه 16:
(Smoothing) git)! [] وجود احتمال هاي صفر در مدل ‎n-gram‏ محاسبات را در عمل با مشكل مواجه مي كند زيرا باعث مي شود احتمال بسياري از جمله هاي جديد برابر با صفر كردد. 2 راه حل: استفاده از روش هاي هموارسازي یا ‎smoothing‏ لا روش هاي هموارسازي سعي مي كنند احتمال رخدادهاي ديده نشده را به نحوي تخمین بزنند.

صفحه 17:
هموارسازي تا ساده ترین روش هموارسازي: اضافه کردن عدد ‏ به تمام شمارش ‎(Add-One vis)) &‏ ‎_Nw,,w)+1‏ Avg a) re ۲ روش ۸00-0۳6 روش موثري نیست چون تغییر زيادي در احتمالات غیرصفر مي دهد. 0 روش هاي دیگر هموارسازي: استفاده از روش هاي تخفیف ‎(discounting)‏

صفحه 18:
‎(discounting) 48s: 9‏ به منظور هموارسازي» از شمارش هاي غیرصفر کاسته شده و برروي شمارش هاي صفر توزیع مي گردد. کاستن از شمارش هاي غیرصفر با استفاده از روش هاي تخفیف صورت ‏مي كيرد. ‏0 : شمارش اولیه ‎rand,‏ ‏۳ : شمارشت_خفرفداده شدم 3 0 : ضریبق خفیف ‎

صفحه 19:
(discounting) 4835 Gla ‏روش‎ ۲ Good-Turing ® + ‏وی(‎ Ft Ds ‎for lsrsk‏ له ‎linear) 3 ® dana ot tinea) oe etc a (absolute) Glas ® ‎

صفحه 20:
7 توزیع شمارش هاي کسرشده برروي شمارش هاي صفر : توزیع باید طوري صورت گیرد که مجموع احتمالات 0-0۲3۲ در هر سطر از ماتریس برابر با 6 گردد. ‎O‏ توزیع شمارش هاي کسرشده از 9۲3۲ماها برروي شمارش هاي ‏صفر ‏با فرض اینکه ۳)۷,|۷,,(<0 تخمین جدید (,,۷۷|,) به روش زیر به دست مي آید: ‎a‏ ‏مم ‎Peng) =O poy)‏ 9 ۱0 ‏* (/8)0: مجموع لحتماءاشکاسته شدم ‎

صفحه 21:
(back off) 2$ Ge O ‏وجود نداشته باشد سراغ 0-0۲3۲۳]هاي با درجة‎ n-gram eb 4S ‏زماني‎ " ‏بايين تر مي رويم.‎ ‘Katz 28 ‏روش عقب‎ # aw) Pw) if C(w,w) =0 POW WE) =} dovigny- PLM Ws) if 1<O(w,w) <k Pow |) ‏عل < 0,۷ گز‎ al) NCE) =O

صفحه 22:
ارزيابي مدل هاي زباني ۲ سرگشتگي ‎(perplexity)‏ ‏* میانگین فاکتور انشعاب: تعداد کلمات ممکن بعد از هر کلمه به طور میانگین " مدل زباني قوي تر» سرگشتگي كمتري را نتیجه مي دهد. "۲ پیکره متني به دو بخش آموزش و آزمون تقسیم مي شود و سرگشتگي برروي مجموعه آزمون محاسبه مي گردد. سرگشتگي يك رشته از ۸۸ کلمه: * احتمال رشته کلمات از مدل ۱-9۲3۲ به دست مي آید.

صفحه 23:
ارزيابي مدل هاي زباني 0 سرگشتگي يك رشته از ۸۸ کلمه: | * احتمال رشته کلمات از مدل ‎N-gram‏ به دست مي ‎wud‏ ۳ < ۷ Minn’ Wa) ۲ آنتروپي (/6۳1۲00۱): معیار دیگر ارزيابي مدل هاي زباني ‎H=log, PP‏ 0 روش دیگر ارزيابي مدل زباني: " به كارگيري در سیستم بازشناسي گفتار پیوسته و ارزيابي میزان خطاي بازشناسي

39,000 تومان