صفحه 1:
In the name of God
Language Modeling
Mohammad Bahrani
Feb 2011
صفحه 2:
مدل سازي زباني Language)
(Modeling
مدل زباني نحوة رخداد توالي کلمات در زبان را مدلسازي مي کند.
O مدل زباني:
* آماري
ساختاري
7 مدل زباني آماري به يك دنباله از کلمات زبان مانند ,۷۷<۱۷/,۷,۰..۷يك احتمال
P(W) نسبت مي دهد.
It must be recognized that the notion “probability of a sentence” is ©
an entirely useless one, under any known interpretation of this term.
(Noam Chomsky)
o مدل زياني ساختاري با استفاده از يك سري قواعد زباني نحوه توالي لغات را
مشخص مي کند.
صفحه 3:
مدل سازي زباني
0 سطوح مختلف مدل سازي زباني
واژگاني محلي
نحوي
معنايي
0 كاربردهاي مدل زباني
بيش بيني كلمات
بازشناسي كفتار
درك زبان طبيعي
ترجمة ماشيني
بازشناسي نويسههاي نوري
صفحه 4:
شمارش کلمات
۲ معمولاً اولین قدم در مدل سازي آماري زبان» شمارش انواع کلمات در يك
پیکره متني مي باشد.
۲۳ پیکره متني: مجموعه اي بزرگ از متون مختلف که از منابع گوناگون
گردآوري شده اند.
* تعداد کل کلمات (101605 ۷۷0۲۵) در پیکره هاي متني در حد چند صد میلیون
تعداد انواع کلمات (065 12 ۷/۵۳۵) در حد چند صد هزار یا چند میلیون (بسته به نوع
متون)
۲0 قبل از شمارش کلمات معمولا پیکره متني بايد قطعه بندي و نرمال سازي شود.
صفحه 5:
شمارش کلمات
۳" شمارش کلمات: تعیین انواع type ۷/0۲0ها در پیکره متني و تعداد رخداد
هر يك از آنها
۲ با يك بار پیمایش پیکره متني مي نوان تعداد انواع کلمات (06/ ۷/0۲۵ها)
را در پیکره متني شمارش کرد.
۲ در يك پیکره متني بزرگ از متون واقعي معمولاً تعداد کمي از کلمات با
فراواني بالا و تعداد زيادي از کلمات با فراواني پایین رخ مي دهند.
معمولاً 010//ا م5]0ها بيشترين فراواني را در بيكره متني دارند.
صفحه 6:
شمارش کلمات: قانون 71۳۴
:Zipf (Zipf’s law) os8 9
کلمات موجود در پیکره متني را برحسب فراواني (از بیشتر به کمتر) مرتب مي کنیم و به
ترتیب به آنها رتبه (۲۵) 4 تا | مي دهیم.
]210 مشاهدم کرد که بینفراولنيکلمانتو رتبه آنها يكت ناسبمعکوسوجود دارد.
Cc
f(w=—_
1۳۷0 aw
2 (۶0۷: فراولنيکلمه ۷
(2)۷۷: رتبه کلمه ۷۷
8 و ج: مقادیر شابت(پارلمترهایمدل
صفحه 7:
شمارش کلمات: قانون 71۳۴
21092۲0 -1096< (1091)۲
آ" بين لگاریتم فراواني و لگاریتم رتبه رابطة خطي وجود دارد.
7" پارامترهاي ) و 2 را مي توان براي هر پیکرة متني محاسبه کرد.
log f(z,13250)
0 2 4 6 8 2
صفحه 8:
شمارش کلمات
7 در بسياري از کاربردها کلمات پرتکرارتر پیکره متني به عنوان مجموعه لغات (16:1600)
انتخاب مي شوند.
5 دو راه براي انتخاب كلمات برتكرار: ۱
گذاشتن حد آستانه برروي تعداد کلمات انتخابي (مثلاً (00000600 کلمه پرکاربردتر)
گذاشتن حد آستانه برروي فراواني کلمات (مثلاً انتخاب کلمات با فراواني بالاتر از 00[
۲ در بعضي از کاربردها مانند كاربردهاي بازيابي اطلاعات ۷/۵۲0 5100ها معمولاً از لیست
کلمات حذف مي شوند.
5 بسته به کاربرد ممکن است فقط ريشه کلمات انتخابي را در 1612017 قرار دهيم.
0 علاوه بر کلمات پرکاربرد؛ کلمات ديگري نیز بسته به نیاز ممکن است در 162160 وارد
شود.
صفحه 9:
n-gram J
:n-gram Jao
ساده ترین و پرکاربردترین مدل زباني آماري #
احتمال رخداد يك کلمه پس از دنباله اي از 0-1 کلمه *
احتمال دنباله لغات ,م//...,۷۷/<۱۷۷,۷۷ در حالت كلي: mt
0 یم =] al wee)
a
POW) = Poy) Pv | wy) PC | wy)» P| We Wn)
وقتي ۲0 بزرگ باشده محاسبه احتمال فوق بسیار مشکل و در عمل غیرممکن است.
صفحه 10:
n-gram مدل
5 در عمل تعداد کلمات قبلي به ۲-1 کلمه محدود مي شود و مدل
حاصل ۱-۲3۲۲ نامیده مي شود.
PW) = Pome) =[] POUL Me Me)
6 مقادیر معمول 0: بین 4 تا #
n=1: monogram (unigram) ©
n=2: bigram ©
n=3: trigram ©
n=4: quadrigram (4-gram) ©
n=5: 5-gram ©
صفحه 11:
n-gram مدل
(monogram J») 0-1 براي "
PW) =Plw) Pw) Pw) Pw,)
(trigram Jx) n=3 vie ®
PW) =P) Pw, | wy) Plog | wey) Pow | 1g): PC | Woe 2 Mons)
صفحه 12:
استخراج مدل 11-0121
gegen Ge Ja. O با استفاده از شمارش دنبالة کلمات در يك پیکره
متني بزرگ به دست مي آیند:
ابتدا تمام انواع کلمات پیکره شمارش مي شود و يك مها شامل () کلمه
از کلمات پرکاربرد (و سایر کلمات موردنظر) تعبین مي گردد.
# ساير کلمات همگي با يك نماد مشخص به عنوان کلمه خارج از واژگان
(000) جايكزين مي شوند.
سيس بيكره از ابتدا نا انتها بيمايش شده و تمام تركيبات دوتايي؛ سه
تايي» ... و تايي از كلمات وازكان (و همجنين نماد (06)) شمارش مي
شود.
صفحه 13:
استخراج مدل 11-0160
0- پس از شمارش ترکیب هاي دوتايي» سه تايي و ... احتمالات A
محاسبه مي شوند. 0
مدل ۲۱۵۴۵9۲۵۲۴ NY هراس
Joa!
ل i
bigram J» اكوا ون يداي
مدل ماق وا Bara ts | gue) = Neuen
شنک
صفحه 14:
استخراج مدل 11-0712112
تا ماتریس شمارش هاي bigram
0
Nw)
Nowy) & Mwy) =Now)
Nww)
09۲۵۳ ماتریس احتمالات ۲"
Mw
۰ ۷۲۵
۰ ۷۲۱۸
Nw |)
1 4
ار ار
Nww) Mwy)
-- یا مار
4% نا
Now| w) Mw|w)
ليد | سك Nw|w)
| يم
Ww
۲ ۱
صفحه 15:
استخراج مدل 11-0712112
2 تعداد پارامترهاي مدل ۱-9۲۵۳0 با افزایش 0 به طور نمايي رشد مي کند.
تعداد پارامترهاي مدل ۷2 :019۲۵۴0
تعداد پارامترهاي مدل ۷ :۳19۲۵۳0
_تعداد پارامترهاي مدل ۷۲ :۱-9۲3۳0
o لأ ۷ از مرتبه چندهزار است بنابراین تعداد پارامترهاي مدل ۱-9۲۵۳0 بسيار زياد است.
۲ در عمل
رخ نداده
_به دلیل کم بودن حجم پیکره متني
به دلیل مجاز نبودن بعضي از دنباله هاي کلمات در زبان
اري از اين پارامترها صفر هستند» يعني دنباله کلمات مربوط به آنها در پیکره متني
2 بنابراین نحوة ذخيرة مدل هاي N-gram در حافظة کامپیوتر به صورت ماتریس 508756
مي باشد.
صفحه 16:
(Smoothing) git)!
[] وجود احتمال هاي صفر در مدل n-gram محاسبات را در عمل
با مشكل مواجه مي كند زيرا باعث مي شود احتمال بسياري از جمله
هاي جديد برابر با صفر كردد.
2 راه حل: استفاده از روش هاي هموارسازي یا smoothing
لا روش هاي هموارسازي سعي مي كنند احتمال رخدادهاي ديده نشده
را به نحوي تخمین بزنند.
صفحه 17:
هموارسازي
تا ساده ترین روش هموارسازي: اضافه کردن عدد به تمام شمارش
(Add-One vis)) &
_Nw,,w)+1
Avg a) re
۲ روش ۸00-0۳6 روش موثري نیست چون تغییر زيادي در
احتمالات غیرصفر مي دهد.
0 روش هاي دیگر هموارسازي: استفاده از روش هاي تخفیف
(discounting)
صفحه 18:
(discounting) 48s: 9
به منظور هموارسازي» از شمارش هاي غیرصفر کاسته شده و برروي
شمارش هاي صفر توزیع مي گردد.
کاستن از شمارش هاي غیرصفر با استفاده از روش هاي تخفیف صورت
مي كيرد.
0 : شمارش اولیه rand,
۳ : شمارشت_خفرفداده شدم
3 0 : ضریبق خفیف
صفحه 19:
(discounting) 4835 Gla روش ۲
Good-Turing ®
+ وی( Ft Ds
for lsrsk له
linear) 3 ®
dana ot tinea) oe
etc a (absolute) Glas ®
صفحه 20:
7 توزیع شمارش هاي کسرشده برروي شمارش هاي صفر :
توزیع باید طوري صورت گیرد که مجموع احتمالات 0-0۲3۲ در هر
سطر از ماتریس برابر با 6 گردد.
O توزیع شمارش هاي کسرشده از 9۲3۲ماها برروي شمارش هاي
صفر
با فرض اینکه ۳)۷,|۷,,(<0 تخمین جدید (,,۷۷|,) به روش زیر به دست
مي آید: a
مم
Peng) =O poy)
9
۱0
* (/8)0: مجموع لحتماءاشکاسته شدم
صفحه 21:
(back off) 2$ Ge O
وجود نداشته باشد سراغ 0-0۲3۲۳]هاي با درجة n-gram eb 4S زماني "
بايين تر مي رويم.
‘Katz 28 روش عقب #
aw) Pw) if C(w,w) =0
POW WE) =} dovigny- PLM Ws) if 1<O(w,w) <k
Pow |) عل < 0,۷ گز
al)
NCE) =O
صفحه 22:
ارزيابي مدل هاي زباني
۲ سرگشتگي (perplexity)
* میانگین فاکتور انشعاب: تعداد کلمات ممکن بعد از هر کلمه به طور میانگین
" مدل زباني قوي تر» سرگشتگي كمتري را نتیجه مي دهد.
"۲ پیکره متني به دو بخش آموزش و آزمون تقسیم مي شود و سرگشتگي
برروي مجموعه آزمون محاسبه مي گردد.
سرگشتگي يك رشته از ۸۸ کلمه:
* احتمال رشته کلمات از مدل ۱-9۲3۲ به دست مي آید.
صفحه 23:
ارزيابي مدل هاي زباني
0 سرگشتگي يك رشته از ۸۸ کلمه:
|
* احتمال رشته کلمات از مدل N-gram به دست مي wud
۳ < ۷ Minn’ Wa)
۲ آنتروپي (/6۳1۲00۱): معیار دیگر ارزيابي مدل هاي زباني
H=log, PP
0 روش دیگر ارزيابي مدل زباني:
" به كارگيري در سیستم بازشناسي گفتار پیوسته و ارزيابي میزان خطاي
بازشناسي