صفحه 1:
In the name of God
Part-of-Speech
tagging
Mohammad Bahrani
March 2011
صفحه 2:
Part-of-Speech (POS)
tagging
L Part-of-Speech (POS) جزء كلام: مقوله نحویکه هر کلمه به آنتعقدارد.
نامهای دیگر: 295 word classes: lexical tags:
(tagging) وطووج] ۳05: فرلیند لنتسابقوله نحووبه هو کلمه در پیکرهم متنی
5 «واصلیدر انگلیسن
Nouns =
Verbs
Adjectives
Adverbs
Prepositions (on, to, by, from, with, ...)
Determiners (a, an, the)
Pronouns (she, who, my, others, ...)
Conjunctions (and, but, if, ...)
Auxiliaries (can, should, are,
Particles (up, down, off, in, af
Numerals (one, two, three, first, second, ...) =
صفحه 3:
Part-of-Speech (POS)
tagging
بسته به کاربرد» ممکن است ۳05 های جزئی تری در پیکره های متتی به کار روند:
برای علائم نقطه گذاری هم وج] های
Singular nouns
Plural nouns
Comparative adjectives
Superlative adjectives
Modal verbs
Personal pronouns
Possessive pronouns
6 م م مم ممم
تى ممكن است به کار رود.
61 29]هیمختلفدر لنگلیسن
tag Gus. :Penn Treebank tag set *
tag ©’PU:L2 :Brown Corpus tag set *
tag Od2:C5 tag set ©
tag set © 7©: شامل066 tag
در بيكره متنی زبان فارسی (دکتر بیجن خان) حدود 0000 29] به کار رفته است.
صفحه 4:
1۵010 -۳۵۹: کاربردها
0 دانستن مقوله نحوی یک کلمه می تواند اطلاعات بیشتری در مورد خود کلمه و کلمات مجاور
آن به ما بدهد.
O کاربردها:
مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در بيش بینی کلمه
بعدی کمک کند.
3 مثال: در انگلیسی بعد از ضمایر ملکی؛ اسم و بعد از ضمایر شخصی؛ قعل می آید.
7 در فارسى معمولاً بعد از حرف اضافه اسم يا ضمير می آید.
: مقوله نحوى يك كلمه مى تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما
* سنتز
ay
" مثال: ObJECT (verb) s OBject (noun) Sy 424 ell 4» object aus Lil
7 تلفظ کلمه "مرد" در فارسی (Sas) "224 (eal) 2p" Sy ee
بازيابى اطلاعات: دانستن مقوله نحوى كلمات مى تواند به استخراج کلمات مهم در متن کمک کند.
رفع ابهام معنايى: دانستن مقوله نحوى كلمات مى تواند به رفع ابهام معنایی کلمه کمک کند.
57 مثال: كلمه !18/36 در انكليسى و كلمه "در" در فارسى
* تجزيه نحوى (031519): براى 03151170 بايين به بالا در ابتدا نياز به تعيين مقوله نحوى
كلمات داريم.
صفحه 5:
buts) :POS tagging
۲ مشکل اصلی در 1399109 ۳05: بعضی از کلمات به چند مقوله نحوی
تعلق دارند.
* حدود 9600.9 از انواع کلمات به کار رفته در پیکره brown دارای بيش از يك و8
هستند.
این کلمات حدود 966۳00 پیکره را شامل می شوند.
:POS tagging J cb تا روش
(rule based POS tagging) روش هاى مبتنى بر قاعده ©
(probabilistic/stochastic POS tagging) coll sls روش *
(transformation-based POS tagging) $3 ck روش #
صفحه 6:
Rule based POS tagging
"" با استفاده از یک is sa Al sie rule Go کلمات دارای ابهام را با توجه
به کلمات مجاور تعیین می کند.
3 عباهاه به وسیله زبانشناساننوشته میشوند.
* دو مرحله کلی از 390109 ۴۵5 مبتنی بر قاعده
3 ابتدا با استفاده از یک دیکشنری تمام 889 هاى ممكن براى كلمات تعيين مى شوند.
3 سپس برای هر کلمه در متن, با استفاده از قواعد و با توجه به كلمات مجاور؛ يكى از
30 ها به عنوان 830 اصلى تعيين مى شود.
صفحه 7:
Rule based POS tagging
| think that you are clever :Ju& ©
1۱: PRON
think: V
that: PRON, DET, COMP, ADV
you: PRON
are: AUX
clever: ADJ
(ENGTWOL tagger مثالى از يك عالم (از 5
Adverbial-that rule:
Given input: “that”
If
(+1 ADJ/ADV/QUANT)
(+2 SENT-LIM)
(NOT -1 V-SVO)
then eliminate non-ADV tags
else eliminate ADV tag
صفحه 8:
Probabilistic POS tagging
* با استفاده از یک پیکره 9 خورده. دنباله وهای ممکن برای دنباله
كلمات مختلف را ياد مى كيرد و با استفاده از آن محتمل ترین 139 برای
هر کلمه را پیدا می کند.
"" مسئله 13991۳9 ۴05 به صورت آماری:
7 با فرض داشتن دنباله کلمات ,۰۷۷۷۷۱۰۰۰۷۷ دنباله و] های ,...با۲ را
طوری پیدا کنید که (۳)7[۷۷ ماکزیمم شود:
T=argnaxAT|W)
5 با استفاده از قانون بیز:
۳ رم روي وه
Gibb) ی | رطع
صفحه 9:
Probabilistic POS tagging
* محاسبه احتمال هاي فوق در عمل بسیار مشکل است. بنابراین چند فروض
ساده کننده براي محاسبه احتمال ها به کار مي رود:
Rett) ~T LAGI)
a (n-gram (حاصلضرب احتمالات 7
۵( یه یور
7 (حاصلضرب احتمالات 606۲۵100 و-۱۵6۵1)
بنابراین باید دنباله و] ها را طوري پیدا کنیم که عبارت زیر ماکزیمم
۳ شود:
Pou | ی AGE t,) -11 14 11۳41
صفحه 10:
Probabilistic POS tagging
0۲ محاسبه احتمالات با استفاده از پیکره برچسب خورده
2440
Mele) = aes bigram cYusel ©
Fowl یگ lexical-generation احتمالات
O محاسبه محتمل ترین دنباله از ©3غها
ساده ترین روش: درنظر گرفتن تمام دنباله های محتمل و محاسبه لحتمال هر یک به روش
(Brute Force Search) 38
# با فرض داشتن ل| برچسب و ۲ کلمه» حداکثر "لا دنباله از برچسب ها تولید مي شود.
صفحه 11:
زنجیره مارکوف (Markov Chain)
۲ محاسبه احتمال (۳)۲ با استفاده از زنجیره مارکوف
o زنجیزه عارکوف: نوع خاصي از ۱۵۳۱۳6 5۵16 ۴۱۳۱۲6
كه در آن به يرش هاي بين 5116 ها يك احتمال نسبت داده مي
شود.
تا فرض مارکوف مرتبه اول: احتمال بودن در هر 50316 فقط به
6 قبلي وابسته است.
صفحه 12:
lis ah)
KEL Py ART) Ne V cue Corpus: 4 ob هاي زیر داریم:
صفحه 13:
زنجیره مارکوف: مثال
۲ احتمال رفتن وقوع برچسب هاي مختلف پس از یکدیگر را مي توان
با زنجیره مارکوف زیر نشان داد:
= P(N V ART N) = 0.29*0.43*0.65*1=0.081
صفحه 14:
مدل مخفي مارکوف Hidden Markov)
(Model
۲ اگر در هر گره از زنجیره مارکوف يك سري خروجي (با يك توزیع احتمال
مشخص) داشته باشیم» زنجیره مارکوف تبدیل به مدل مخفي ماركوف (11/11/1])
مي شود.
خروجي ها در هر گره مي توانند کلمات مختلف باشند. احتمال خروجي هر کلمه
بدین معني است که با چه احتمالي آن کلمه به وسیله آن گره تولید مي شود
(احتمالات 606۲3100 و۵1-9ع۱۵)
وازه ”مخفي“ به اين دليل به اين مدل اطلاق مي شود كه با فرض داشتن يك دنباله
از كلمات خروجيء دنباله 16وهاي تولید کننده آن از نظر ما مخفي است.
صفحه 15:
۲ محاسبه احتمال (۳)۷۷|۲ با استفاده از مدل مخفي مارکوف:
فرض کنید که احتمالات 621-96۳06۲۵110] در Spe 4 +2) corpus
زير است:
صفحه 16:
صفحه 17:
۲7 به شرط گذر از مسیر "!۱ ۸۲ ۷ ۱" در زنجیره مارکوف مثال فوق»
احتمال اينکه خروجي برابر با دنباله کلمات 0/6۳ “flies like a
باشد:
™ P(flies like a flower|N V ART N) = P(flies | N) * P(like | V) *
P(a | ART) * P(flower | N) = 0.025 * 0.1 * 0.36 * 0.063 = 5.4
*105
صفحه 18:
الگوریتم ويتربي
۲7 تعیین محتمل ترین دنباله از 216وهاي ۲۱۳۲ به شرط مشاهده دنباله اي از
خروجي ها
* در tagging 805: تعیین محتمل ترین دنباله از وج)ها به شرط مشاهده دنباله اي از کلمات
5 در الكوريتم ويتربي نيز از احتمال هاي 0101310 و 606۲210۳و-۱6۵6۵1
براي محاسبه محتمل ترين دنباله از 30ها استفاده مي شود.
۲ در الگوریتم ويتربي با مشاهده هر خروجي محتمل ترین دنباله از 5216ها به
صورت جزثي sd gs Gules (partial)
صفحه 19:
صفحه 20:
Supervised & Unsupervised POS
tagging
(Supervised) © a3 L34 p45 4 POS tagging 9
* داده آموزش داراي برچسب ۳05 مي باشد و آموزش براساس رویه فوق
انجام مي كيرد.
(Unsupervised) © Usig 4) 548 4 POS tagging 9
* داده آموزش بدون برچسب مي باشد و آموزش بر اساس يك رویه تكراري
انجام مي كيرد.
صفحه 21:
5! :POS tagging
۲۳ _پیکره متني به دو بخش تقسیم مي شود:
* 000-00096 از پیکره براي آموزش (۲۳210)
* 10-0096 از پیکره براي آزمون (اعا)
7 با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس ۲29919 ۳05 برروي
داده آزمون تست مي شود.
5 تناد الماك و ببست صحيح
Acc= :POS tagging <& 9
:Cross Validation U3) 9
* پیکره متني به »] قسمت مساوي تقسیم مي شود. ۱
* در هر مرحله از ارزيابي؛ يك بخش براي آزمون و ۷-1 بخش دیگر براي آموزش به کار
مي رود.
* این روند 1 بار تکرار مي گردد و درنهایت از نتایج ارزيابي 1 مرحله میانگین گرفته مي
شود.