کاربران گرامی توجه نمایید! «وبسایت ppt.ir بروز شد»

کاربران گرامی ورژن جدید وبسایت ppt.ir در اختیار شما قرار گرفته است. کسانی که در سایت فروشنده هستند جهت احراز هویت در وبسایت جدید بر روی لینک کلیک کنند و در قسمت ورودمشاهده بیشتر

کامپیوتر و IT و اینترنت • علوم مهندسی • علوم پایه • آمار

مدل سازی زبانی

در نمایش آنلاین فایل، ممکن است بعضی علائم، اعداد و حتی فونت‌ها به خوبی نمایش داده نشود. این مشکل در فایل اصلی وجود ندارد.

در نمایش آنلاین تعداد 23 از 23 صفحه نمایش داده شده است.

جزئیات

متن فایل

ppt.ir

23 صفحه
2237 بازدید
29 اردیبهشت 1397

برچسب‌ها

ارزيابی-مدل-های-زبانی
استخراج-مدل-n-gram
پاورپوينت-مدل-سازی-زبانی
پاورپوینت
پاورپوینت-آمادهمشاهده همه تگ‌ها

صفحه 1:
In the name of God Language Modeling Mohammad Bahrani Feb 2011

صفحه 2:
مدل سازي زباني ‎Language)‏ ‎(Modeling‏ ‏مدل زباني نحوة رخداد توالي کلمات در زبان را مدل‌سازي مي کند. ‎O‏ مدل زباني: * آماري ساختاري ‏7 مدل زباني آماري به يك دنباله از کلمات زبان مانند ,۷۷<۱۷/,۷,۰..۷يك احتمال ‎P(W)‏ نسبت مي دهد. ‎It must be recognized that the notion “probability of a sentence” is‏ © ‎an entirely useless one, under any known interpretation of this term. (Noam Chomsky) ‎o‏ مدل زياني ساختاري با استفاده از يك سري قواعد زباني نحوه توالي لغات را مشخص مي کند. ‎

صفحه 3:
مدل سازي زباني 0 سطوح مختلف مدل سازي زباني واژگاني محلي نحوي معنايي 0 كاربردهاي مدل زباني بيش بيني كلمات بازشناسي كفتار درك زبان طبيعي ترجمة ماشيني بازشناسي نويسه‌هاي نوري

صفحه 4:
شمارش کلمات ۲ معمولاً اولین قدم در مدل سازي آماري زبان» شمارش انواع کلمات در يك پیکره متني مي باشد. ۲۳ پیکره متني: مجموعه اي بزرگ از متون مختلف که از منابع گوناگون گردآوري شده اند. * تعداد کل کلمات (101605 ۷۷0۲۵) در پیکره هاي متني در حد چند صد میلیون تعداد انواع کلمات (065 12 ۷/۵۳۵) در حد چند صد هزار یا چند میلیون (بسته به نوع متون) ۲0 قبل از شمارش کلمات معمولا پیکره متني بايد قطعه بندي و نرمال سازي شود.

صفحه 5:
شمارش کلمات ۳" شمارش کلمات: تعیین انواع ‎type‏ ۷/0۲0ها در پیکره متني و تعداد رخداد هر يك از آنها ۲ با يك بار پیمایش پیکره متني مي نوان تعداد انواع کلمات (06/ ۷/0۲۵ها) را در پیکره متني شمارش کرد. ۲ در يك پیکره متني بزرگ از متون واقعي معمولاً تعداد کمي از کلمات با فراواني بالا و تعداد زيادي از کلمات با فراواني پایین رخ مي دهند. معمولاً 010//ا م5]0ها بيشترين فراواني را در بيكره متني دارند.

صفحه 6:
شمارش کلمات: قانون 71۳۴ ‎:Zipf (Zipf’s law) os8 9‏ کلمات موجود در پیکره متني را برحسب فراواني (از بیشتر به کمتر) مرتب مي کنیم و به ترتیب به آنها رتبه (۲۵) 4 تا | مي دهیم. ‏]210 مشاهدم کرد که بین‌فراولنيکلمانتو رتبه آنها يكت ناسبمعکوس‌وجود دارد. ‎Cc ‎f(w=—_ ‎1۳۷0 aw ‏2 (۶0۷: فراولني‌کلمه ۷ (2)۷۷: رتبه کلمه ۷۷ 8 و ج: مقادیر شابت(پارلمترهایمدل ‎

صفحه 7:
شمارش کلمات: قانون 71۳۴ 21092۲0 -1096< (1091)۲ آ" بين لگاریتم فراواني و لگاریتم رتبه رابطة خطي وجود دارد. 7" پارامترهاي ) و 2 را مي توان براي هر پیکرة متني محاسبه کرد. log f(z,13250) 0 2 4 6 8 2

صفحه 8:
شمارش کلمات 7 در بسياري از کاربردها کلمات پرتکرارتر پیکره متني به عنوان مجموعه لغات (16:1600) انتخاب مي شوند. 5 دو راه براي انتخاب كلمات برتكرار: ۱ گذاشتن حد آستانه برروي تعداد کلمات انتخابي (مثلاً (00000600 کلمه پرکاربردتر) گذاشتن حد آستانه برروي فراواني کلمات (مثلاً انتخاب کلمات با فراواني بالاتر از 00[ ۲ در بعضي از کاربردها مانند كاربردهاي بازيابي اطلاعات ۷/۵۲0 5100ها معمولاً از لیست کلمات حذف مي شوند. 5 بسته به کاربرد ممکن است فقط ريشه کلمات انتخابي را در 1612017 قرار دهيم. 0 علاوه بر کلمات پرکاربرد؛ کلمات ديگري نیز بسته به نیاز ممکن است در 162160 وارد شود.

صفحه 9:
n-gram J :n-gram Jao ‏ساده ترین و پرکاربردترین مدل زباني آماري‎ # ‏احتمال رخداد يك کلمه پس از دنباله اي از 0-1 کلمه‎ * ‏احتمال دنباله لغات ,م//...,۷۷/<۱۷۷,۷۷ در حالت كلي:‎ mt 0 ‏یم‎ =] al wee) a POW) = Poy) Pv | wy) PC | wy)» P| We Wn) ‏وقتي ۲0 بزرگ باشده محاسبه احتمال فوق بسیار مشکل و در عمل غیرممکن است.‎

صفحه 10:
n-gram ‏مدل‎ 5 در عمل تعداد کلمات قبلي به ۲-1 کلمه محدود مي شود و مدل حاصل ۱-۲3۲۲ نامیده مي شود. PW) = Pome) =[] POUL Me Me) 6 ‏مقادیر معمول 0: بین 4 تا‎ # n=1: monogram (unigram) © n=2: bigram © n=3: trigram © n=4: quadrigram (4-gram) © n=5: 5-gram ©

صفحه 11:
n-gram ‏مدل‎ ‎(monogram J») 0-1 ‏براي‎ " PW) =Plw) Pw) Pw) Pw,) (trigram Jx) n=3 vie ® PW) =P) Pw, | wy) Plog | wey) Pow | 1g): PC | Woe 2 Mons)

صفحه 12:
استخراج مدل 11-0121 ‎gegen Ge Ja. O‏ با استفاده از شمارش دنبالة کلمات در يك پیکره ‏متني بزرگ به دست مي آیند: ‏ابتدا تمام انواع کلمات پیکره شمارش مي شود و يك مها شامل () کلمه از کلمات پرکاربرد (و سایر کلمات موردنظر) تعبین مي گردد. ‏# ساير کلمات همگي با يك نماد مشخص به عنوان کلمه خارج از واژگان (000) جايكزين مي شوند. ‏سيس بيكره از ابتدا نا انتها بيمايش شده و تمام تركيبات دوتايي؛ سه تايي» ... و تايي از كلمات وازكان (و همجنين نماد (06)) شمارش مي شود. ‎

صفحه 13:
استخراج مدل 11-0160 0- ‏پس از شمارش ترکیب هاي دوتايي» سه تايي و ... احتمالات‎ A ‏محاسبه مي شوند.‎ 0 مدل ۲۱۵۴۵9۲۵۲۴ ‎NY‏ هراس ‎Joa!‏ ‏ل ‎i‏ ‎bigram J»‏ اكوا ون يداي مدل ماق وا ‎Bara ts | gue) = Neuen‏ شنک

صفحه 15:
استخراج مدل 11-0712112 2 تعداد پارامترهاي مدل ۱-9۲۵۳0 با افزایش 0 به طور نمايي رشد مي کند. تعداد پارامترهاي مدل ۷2 :019۲۵۴0 تعداد پارامترهاي مدل ۷ :۳19۲۵۳0 _تعداد پارامترهاي مدل ۷۲ :۱-9۲3۳0 ‎o‏ لأ ۷ از مرتبه چندهزار است بنابراین تعداد پارامترهاي مدل ۱-9۲۵۳0 بسيار زياد است. ۲ در عمل رخ نداده ‏_به دلیل کم بودن حجم پیکره متني به دلیل مجاز نبودن بعضي از دنباله هاي کلمات در زبان ‏اري از اين پارامترها صفر هستند» يعني دنباله کلمات مربوط به آنها در پیکره متني ‎ ‎ ‏2 بنابراین نحوة ذخيرة مدل هاي ‎N-gram‏ در حافظة کامپیوتر به صورت ماتریس 508756 مي باشد. ‎

صفحه 16:
(Smoothing) git)! [] وجود احتمال هاي صفر در مدل ‎n-gram‏ محاسبات را در عمل با مشكل مواجه مي كند زيرا باعث مي شود احتمال بسياري از جمله هاي جديد برابر با صفر كردد. 2 راه حل: استفاده از روش هاي هموارسازي یا ‎smoothing‏ لا روش هاي هموارسازي سعي مي كنند احتمال رخدادهاي ديده نشده را به نحوي تخمین بزنند.

صفحه 17:
هموارسازي تا ساده ترین روش هموارسازي: اضافه کردن عدد ‏ به تمام شمارش ‎(Add-One vis)) &‏ ‎_Nw,,w)+1‏ Avg a) re ۲ روش ۸00-0۳6 روش موثري نیست چون تغییر زيادي در احتمالات غیرصفر مي دهد. 0 روش هاي دیگر هموارسازي: استفاده از روش هاي تخفیف ‎(discounting)‏

صفحه 18:
‎(discounting) 48s: 9‏ به منظور هموارسازي» از شمارش هاي غیرصفر کاسته شده و برروي شمارش هاي صفر توزیع مي گردد. کاستن از شمارش هاي غیرصفر با استفاده از روش هاي تخفیف صورت ‏مي كيرد. ‏0 : شمارش اولیه ‎rand,‏ ‏۳ : شمارشت_خفرفداده شدم 3 0 : ضریبق خفیف ‎

صفحه 19:
(discounting) 4835 Gla ‏روش‎ ۲ Good-Turing ® + ‏وی(‎ Ft Ds ‎for lsrsk‏ له ‎linear) 3 ® dana ot tinea) oe etc a (absolute) Glas ® ‎

صفحه 20:
7 توزیع شمارش هاي کسرشده برروي شمارش هاي صفر : توزیع باید طوري صورت گیرد که مجموع احتمالات 0-0۲3۲ در هر سطر از ماتریس برابر با 6 گردد. ‎O‏ توزیع شمارش هاي کسرشده از 9۲3۲ماها برروي شمارش هاي ‏صفر ‏با فرض اینکه ۳)۷,|۷,,(<0 تخمین جدید (,,۷۷|,) به روش زیر به دست مي آید: ‎a‏ ‏مم ‎Peng) =O poy)‏ 9 ۱0 ‏* (/8)0: مجموع لحتماءاشکاسته شدم ‎

صفحه 21:
(back off) 2$ Ge O ‏وجود نداشته باشد سراغ 0-0۲3۲۳]هاي با درجة‎ n-gram eb 4S ‏زماني‎ " ‏بايين تر مي رويم.‎ ‘Katz 28 ‏روش عقب‎ # aw) Pw) if C(w,w) =0 POW WE) =} dovigny- PLM Ws) if 1<O(w,w) <k Pow |) ‏عل < 0,۷ گز‎ al) NCE) =O

صفحه 22:
ارزيابي مدل هاي زباني ۲ سرگشتگي ‎(perplexity)‏ ‏* میانگین فاکتور انشعاب: تعداد کلمات ممکن بعد از هر کلمه به طور میانگین " مدل زباني قوي تر» سرگشتگي كمتري را نتیجه مي دهد. "۲ پیکره متني به دو بخش آموزش و آزمون تقسیم مي شود و سرگشتگي برروي مجموعه آزمون محاسبه مي گردد. سرگشتگي يك رشته از ۸۸ کلمه: * احتمال رشته کلمات از مدل ۱-9۲3۲ به دست مي آید.

صفحه 23:
ارزيابي مدل هاي زباني 0 سرگشتگي يك رشته از ۸۸ کلمه: | * احتمال رشته کلمات از مدل ‎N-gram‏ به دست مي ‎wud‏ ۳ < ۷ Minn’ Wa) ۲ آنتروپي (/6۳1۲00۱): معیار دیگر ارزيابي مدل هاي زباني ‎H=log, PP‏ 0 روش دیگر ارزيابي مدل زباني: " به كارگيري در سیستم بازشناسي گفتار پیوسته و ارزيابي میزان خطاي بازشناسي

39,000 تومان

درباره PPT.IR

تیم ppt.ir با توجه به خلاء موجود در دسترسی به فایل‌های ارائه و اشتراک‌گذاری پاورپوینت، در سال 1390 تصمیم به ایجاد سامانه‌‌ای محتوایی در این حوزه نمود. ppt.ir علاوه بر ایجاد دسترسی به هزاران پاورپوینت آماده و قالب پاورپوینت، آموزش‌هایی در زمینه‌ی ساخت و ارائه‌ی پاورپوینت ارائه می‌دهد.

مدل سازی زبانی

ppt.ir

39,000 تومان

قالب پاورپوینت پایان نامه نسخه پروپزالک

پاورپوینت دنیای برنامه نویسی

پاورپوینت سبک اکسپرسیونیسم

پاورپوینت مبانی مدیریت و سازمان - با محوریت کتاب دکتر علی رضاییان

پاورپوینت مبانی طراحی بناهای دیپلماتیک

قالب پایان نامه نسخه پروپزال

درباره PPT.IR