کامپیوتر و IT و اینترنتعلوم مهندسی

برچسب گذاری اجزای واژگانی کلام

صفحه 1:
In the name of God Part-of-Speech tagging Mohammad Bahrani March 2011

صفحه 2:
Part-of-Speech (POS) tagging ‎L Part-of-Speech (POS)‏ جزء كلام: مقوله نحویکه هر کلمه به آنتعق‌دارد. نامهای دیگر: 295 ‎word classes: lexical tags:‏ ‎(tagging)‏ وطووج] ۳05: فرلیند لنتساب‌قوله نحووبه هو کلمه در پیکرهم متنی ‏5 «واصلی‌در انگلیسن ‎Nouns‏ = ‎Verbs‏ ‎Adjectives‏ ‎Adverbs‏ ‎Prepositions (on, to, by, from, with, ...)‏ ‎Determiners (a, an, the)‏ ‎Pronouns (she, who, my, others, ...)‏ ‎Conjunctions (and, but, if, ...)‏ ‎Auxiliaries (can, should, are,‏ ‎Particles (up, down, off, in, af‏ ‎Numerals (one, two, three, first, second, ...)‏ = ‎ ‎

صفحه 3:
Part-of-Speech (POS) tagging بسته به کاربرد» ممکن است ۳05 های جزئی تری در پیکره های متتی به کار روند: برای علائم نقطه گذاری هم وج] های Singular nouns Plural nouns Comparative adjectives Superlative adjectives Modal verbs Personal pronouns Possessive pronouns 6 م م مم ممم تى ممكن است به کار رود. 61 29]هیمختلفدر لنگلیسن ‎tag Gus. :Penn Treebank tag set *‏ ‎tag ©’PU:L2 :Brown Corpus tag set *‏ ‎tag Od2:C5 tag set ©‏ ‎tag set ©‏ 7©: شامل066 ‎tag‏ در بيكره متنی زبان فارسی (دکتر بیجن خان) حدود 0000 29] به کار رفته است.

صفحه 4:
1۵010 -۳۵۹: کاربردها 0 دانستن مقوله نحوی یک کلمه می تواند اطلاعات بیشتری در مورد خود کلمه و کلمات مجاور آن به ما بدهد. ‎O‏ کاربردها: مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در بيش بینی کلمه بعدی کمک کند. 3 مثال: در انگلیسی بعد از ضمایر ملکی؛ اسم و بعد از ضمایر شخصی؛ قعل می آید. 7 در فارسى معمولاً بعد از حرف اضافه اسم يا ضمير می آید. : مقوله نحوى يك كلمه مى تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما * سنتز ‎ay‏ ‏" مثال: ‎ObJECT (verb) s OBject (noun) Sy 424 ell 4» object aus Lil‏ 7 تلفظ کلمه "مرد" در فارسی ‎(Sas) "224 (eal) 2p" Sy ee‏ بازيابى اطلاعات: دانستن مقوله نحوى كلمات مى تواند به استخراج کلمات مهم در متن کمک کند. رفع ابهام معنايى: دانستن مقوله نحوى كلمات مى تواند به رفع ابهام معنایی کلمه کمک کند. 57 مثال: كلمه !18/36 در انكليسى و كلمه "در" در فارسى * تجزيه نحوى (031519): براى 03151170 بايين به بالا در ابتدا نياز به تعيين مقوله نحوى كلمات داريم.

صفحه 5:
buts) :POS tagging ۲ مشکل اصلی در 1399109 ۳05: بعضی از کلمات به چند مقوله نحوی تعلق دارند. * حدود 9600.9 از انواع کلمات به کار رفته در پیکره ‎brown‏ دارای بيش از يك و8 هستند. این کلمات حدود 966۳00 پیکره را شامل می شوند. :POS tagging J cb ‏تا روش‎ (rule based POS tagging) ‏روش هاى مبتنى بر قاعده‎ © (probabilistic/stochastic POS tagging) coll sls ‏روش‎ * (transformation-based POS tagging) $3 ck ‏روش‎ #

صفحه 6:
Rule based POS tagging "" با استفاده از یک ‎is sa Al sie rule Go‏ کلمات دارای ابهام را با توجه به کلمات مجاور تعیین می کند. 3 عباهاه به وسیله زبان‌شناسان‌نوشته می‌شوند. * دو مرحله کلی از 390109 ۴۵5 مبتنی بر قاعده 3 ابتدا با استفاده از یک دیکشنری تمام 889 هاى ممكن براى كلمات تعيين مى شوند. 3 سپس برای هر کلمه در متن, با استفاده از قواعد و با توجه به كلمات مجاور؛ يكى از 30 ها به عنوان 830 اصلى تعيين مى شود.

صفحه 7:
Rule based POS tagging | think that you are clever :Ju& © 1۱: PRON think: V that: PRON, DET, COMP, ADV you: PRON are: AUX clever: ADJ (ENGTWOL tagger ‏مثالى از يك عالم (از‎ 5 Adverbial-that rule: Given input: “that” If (+1 ADJ/ADV/QUANT) (+2 SENT-LIM) (NOT -1 V-SVO) then eliminate non-ADV tags else eliminate ADV tag

صفحه 8:
Probabilistic POS tagging * با استفاده از یک پیکره 9 خورده. دنباله وهای ممکن برای دنباله كلمات مختلف را ياد مى كيرد و با استفاده از آن محتمل ترین 139 برای هر کلمه را پیدا می کند. "" مسئله 13991۳9 ۴05 به صورت آماری: 7 با فرض داشتن دنباله کلمات ,۰۷۷۷۷۱۰۰۰۷۷ دنباله و] های ,...با۲ را طوری پیدا کنید که (۳)7[۷۷ ماکزیمم شود: ‎T=argnaxAT|W)‏ 5 با استفاده از قانون بیز: ۳ رم روي وه ‎Gibb)‏ ی | رطع

صفحه 9:
Probabilistic POS tagging * محاسبه احتمال هاي فوق در عمل بسیار مشکل است. بنابراین چند فروض ساده کننده براي محاسبه احتمال ها به کار مي رود: Rett) ~T LAGI) a (n-gram ‏(حاصلضرب احتمالات‎ 7 ۵( یه یور 7 (حاصلضرب احتمالات 606۲۵100 و-۱۵6۵1) بنابراین باید دنباله و] ها را طوري پیدا کنیم که عبارت زیر ماکزیمم ۳ ‏شود:‎ ‎Pou | ‏ی‎ AGE t,) -11 14 11۳41

صفحه 10:
Probabilistic POS tagging 0۲ محاسبه احتمالات با استفاده از پیکره برچسب خورده 2440 Mele) = aes bigram cYusel © Fowl ‏یگ‎ lexical-generation ‏احتمالات‎ ‎O‏ محاسبه محتمل ترین دنباله از ©3غها ساده ترین روش: درنظر گرفتن تمام دنباله های محتمل و محاسبه لحتمال هر یک به روش ‎(Brute Force Search) 38‏ # با فرض داشتن ل| برچسب و ۲ کلمه» حداکثر "لا دنباله از برچسب ها تولید مي شود. ‎

صفحه 11:
زنجیره مارکوف ‎(Markov Chain)‏ ۲ محاسبه احتمال (۳)۲ با استفاده از زنجیره مارکوف ‎o‏ زنجیزه عارکوف: نوع خاصي از ۱۵۳۱۳6 5۵16 ۴۱۳۱۲6 كه در آن به يرش هاي بين 5116 ها يك احتمال نسبت داده مي شود. تا فرض مارکوف مرتبه اول: احتمال بودن در هر 50316 فقط به 6 قبلي وابسته است.

صفحه 12:
lis ah) ‎KEL Py ART) Ne V cue Corpus: 4 ob‏ هاي زیر داریم: ‎

صفحه 13:
زنجیره مارکوف: مثال ۲ احتمال رفتن وقوع برچسب هاي مختلف پس از یکدیگر را مي توان با زنجیره مارکوف زیر نشان داد: = P(N V ART N) = 0.29*0.43*0.65*1=0.081

صفحه 14:
مدل مخفي مارکوف ‎Hidden Markov)‏ ‎(Model‏ ‏۲ اگر در هر گره از زنجیره مارکوف يك سري خروجي (با يك توزیع احتمال مشخص) داشته باشیم» زنجیره مارکوف تبدیل به مدل مخفي ماركوف (11/11/1]) مي شود. خروجي ها در هر گره مي توانند کلمات مختلف باشند. احتمال خروجي هر کلمه بدین معني است که با چه احتمالي آن کلمه به وسیله آن گره تولید مي شود (احتمالات 606۲3100 و۵1-9ع۱۵) وازه ”مخفي“ به اين دليل به اين مدل اطلاق مي شود كه با فرض داشتن يك دنباله از كلمات خروجيء دنباله 16وهاي تولید کننده آن از نظر ما مخفي است.

صفحه 15:
۲ محاسبه احتمال (۳)۷۷|۲ با استفاده از مدل مخفي مارکوف: فرض کنید که احتمالات 621-96۳06۲۵110] در ‎Spe 4 +2) corpus‏ زير است:

صفحه 16:

صفحه 17:
۲7 به شرط گذر از مسیر "!۱ ۸۲ ۷ ۱" در زنجیره مارکوف مثال فوق» احتمال اينکه خروجي برابر با دنباله کلمات 0/6۳ ‎“flies like a‏ باشد: ™ P(flies like a flower|N V ART N) = P(flies | N) * P(like | V) * P(a | ART) * P(flower | N) = 0.025 * 0.1 * 0.36 * 0.063 = 5.4 *105

صفحه 18:
الگوریتم ويتربي ۲7 تعیین محتمل ترین دنباله از 216وهاي ۲۱۳۲ به شرط مشاهده دنباله اي از خروجي ها * در ‎tagging‏ 805: تعیین محتمل ترین دنباله از وج)ها به شرط مشاهده دنباله اي از کلمات 5 در الكوريتم ويتربي نيز از احتمال هاي 0101310 و 606۲210۳و-۱6۵6۵1 براي محاسبه محتمل ترين دنباله از 30ها استفاده مي شود. ۲ در الگوریتم ويتربي با مشاهده هر خروجي محتمل ترین دنباله از 5216ها به صورت جزثي ‎sd gs Gules (partial)‏

صفحه 19:

صفحه 20:
Supervised & Unsupervised POS tagging ‎(Supervised) © a3 L34 p45 4 POS tagging 9‏ * داده آموزش داراي برچسب ۳05 مي باشد و آموزش براساس رویه فوق انجام مي كيرد. ‎(Unsupervised) © Usig 4) 548 4 POS tagging 9 ‏* داده آموزش بدون برچسب مي باشد و آموزش بر اساس يك رویه تكراري انجام مي كيرد. ‎

صفحه 21:
5! :POS tagging ۲۳ _پیکره متني به دو بخش تقسیم مي شود: * 000-00096 از پیکره براي آموزش (۲۳210) * 10-0096 از پیکره براي آزمون (اعا) 7 با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس ۲29919 ۳05 برروي داده آزمون تست مي شود. 5 تناد الماك و ببست صحيح Acc= :POS tagging <& 9 ‎:Cross Validation U3) 9‏ * پیکره متني به »] قسمت مساوي تقسیم مي شود. ۱ * در هر مرحله از ارزيابي؛ يك بخش براي آزمون و ۷-1 بخش دیگر براي آموزش به کار ‏مي رود. * این روند 1 بار تکرار مي گردد و درنهایت از نتایج ارزيابي 1 مرحله میانگین گرفته مي شود. ‎

جهت مطالعه ادامه متن، فایل را دریافت نمایید.
34,000 تومان