صفحه 1:
ae ee ere et
صفحه 2:
معرفی برچسب گذار
<- کاربردها
- روشها
شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارسی
- ایجاد دیکشنری
7 ایجاد و ارزیابی قواعد
- کلمات ناشناخته
— شناسایی فعل
ارزیابی
صفحه 3:
1 هد ماش وم Gin ey OA ee
57999 ع دن arapuiiesiay |
ee ا
بو سسوم اب ماس و با با
eee ot ee! ا ی
حروجی
NNP/ Houston ,/, NNP/ Monday ی رطق زر 2: 2: :/ - NN/Men VBP/ have VED!
landed Cc) and ۷۵۵ walked IN/on D1/ the NN/moon ). <5) 0) NNPS/ Americans ¥/
INNvs/ astronauts IN/ af NNP/ Apollo /, VBD/ steered PRPS/ their 31/fragilo إل
four-legged NN/lunar vB/ module RE/-<afely CC/ and RE/ smoothly TO/ to OT/ the ال
historic NN/ landing NN/ yesterday Ij 2t NN) 4:17:40 NNP/P.M. , NNP/Eastern NN)
daylight NN/ time ,/. NNP/ Neil NNP/ A. NNP/ Armstrong ,/, O1/ the 2/ 38-year-old Dj
۱ NN earth Cc) and O7/ the NN mission
NN control My room =/ hare :/: °*/* NNB/ Houston /,, NNP/Trangullty NNP/ Base
Re/liere i; OT/ the NNP/ Eagle VEZ/has VBN/ landed J."
صفحه 4:
۳
key:
‘= + Pound sign ۰ و -Dolar sian
۰ 7 Clase double quote ۰ open double quote
‘© clase single quate 4 -open single quote
© comma ‘+ -Final punctuation
= Colon, semi-colon ها ها bracket
“+ 0 Righe bracket ‘+ © Coordinating conjunction
© cardinal number ‘+ DT Determiner
“+ © - Existential there = PW -Foreian word,
‘© 1N-Preposttion ss Adjecive
‘* niR-Comparative adjective» 115 -Superiative adjective
LS - List Item Marker = HO - Mods
{+ Nov Singular noun “+ Ns - Plural noun
“+ NNP- Proper singular noun» NPS Proper plucel noun
۰ + POS -Pessesive ending
‘+ PR? - Personal proneun 1+ PPS - Posseswe pronoun
+ pe -Adverb “+ RB - Comparative adverb
‘© RBS - Superlative Adverb 0 -Pattide
۰ Sy - Symbol . 16-5
0 “© vi verb, base form
‘+ ved - verb, past tense ‘+ VEG - Verb, garund/oresant partcple
‘+ van verb, past participle vb - Verb, non 3rd ps. sing. present
‘+ VBz -Verb, 31d ps. sing, present. # WOT wh-determiner
= We wh-pronoun ‘+ WPs - Possesive wh-orenoun
6 قات whesavers
صفحه 5:
مدل سازی زبانی (در بازشناسی گفتار و ..): مقوله نحوی یک کلمه می تواند در پیش
بینی کلمه معدی کمک کند.
- ما انگلیسی: ضمایر ملکی دام
فارسى: حرف اضافه (اسم یا ضمیر)
سنتز كفتار: مقوله نحوى يك كلمة مى تواند اطلاعاتى ذر مورد نخوة تلقظ صحيح يى
كلمه به ما بدهد.
ObJECT (verb) , OBject (noun) Lab مثال: -
- تلفظ رد" (اسم)؛ فل
بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در
رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه
کمک کند.
- مثال: کلمه ۷۷۵/1۱ در انگلیسی و کلمه "در" در فارسی
جزيه نحوى (110أ0315): براى 03151119 يا
مقوله نحوى كلمات داريم.
به بالا در ابتدا نياز به تعيين
صفحه 6:
* روش های کلی 13991۳9 ۳05:
روش های مبتنی بر rule based POS tagging) oscl
* دیکشتری -——< tags
* قواعد +مجاور سک tag
- روش های آماری (2991۳9] ۳۵05 ۲6/506۳2516 کزازماحماه۳م)
ی
ctransformation-based POS tagging) 55 cb روش -
صفحه 7:
ه متنى به دو بخش تقسيم مى شود:
60-5 از ييكره براى آموزش (6131)
- ۱۰-۲۰۸ از ييكره براى آزمون (6©51)
* با استفاده از داده آموزش آمارهاى لازم استخراج مى كردد و سيس 805
Lagging برروى داده آزمون تست مى شود.
* تکنیک اعتبارسنجی متقابل ۵ قسمتی:
- بيكره متنى به »| قسمت مساوى تقسیم می شود. ۱
- در هر مرحله از ارزیابی, يك بخش براى آزمون و 6-1! بخش ديكر براى آموزش به كار
می رود.
- اين روند 16 بار تکرار می گردد و درنهایت از نتایج ارزیابی 16 مرحله میانگین گرفته می
شود.
و هر تعداد کلمات با برچسب صحيح
* دقت ۲399179 ۳05: تاد لو
Acc=!
صفحه 8:
گذار زبان فا
پیاده سازی برچسب گذار زبان فارسی
صفحه 9:
ترکیب هر سه پیکره (آموزش ۰ تست و ارزیابی)
* نرمالسازی متن
شمارش تگهای هر کلمه
ADJ ورد ۷ -
N ۲وارد
* پر تکرار ترین برچسب به عنوان تگ پیشفرض
صفحه 10:
* انواع قوائین
TAG-2 TAG-3 1۸6-1
TAG-3 > TAG-X when TAG-2 @ (-1) TAG-1 @
(-2)
TAG-1 > TAG-X when TAG-2 @ (+1) TAG-3 @
(+2)
TAG-2 > TAG-X when TAG-3 @ (+1)
* استفاده از قواعد قبلی
* ساخت قواعد جدید
صفحه 11:
ایجاد قواعد جدید
N
© 3 بك 16 1 eee
استخراج سه گانه های داخل متن N
PREP
N
PUNC
تا هیر در گرگان © بر Prep!
سرس N PREP PUNC N PREP N 1
باورها AD)
ی دینی ترکمنها در اين روز برای ييامبر اکرم ۷
PREP PRE
ADJ N PREP N PREM P N ADJ N
* محاسبه مجموع دفعات ظهور هر سه كانه
PREP
PUNC
PREP
AD)
صفحه 12:
دسته بندی و محاسبه درصد وقوع در هر دسته
TW 32.75% بطم
سه كانه هاى بيشتر از ۲۰ درموووع2 گر ۳۳6۴ +o apy
15.37 ۷
۰ ۵ ADV
٠ زه ADV ره 10.33%
۰ ۵ ADV PRENUM 4.03%
۰ ۵ ‘ADV ADV 3.27%
۰ ۵ ADV punc } 2.27%.
یه کلاهای کت ۱۰ نویر جر SUGR امم ۵ ۰
prem | 1.76% امم زه ٠
٠ امم زه PR 1.26%
* تبدیل سه گانه های کم تکرار به سه گانه های پر تکرار
PR > N when ADV @ (-1) DJ @ (-2)
PR > PREP when ADV @ (-1) DJ @ (-2)
* تست قواعد
صفحه 13:
PRENUM دو
POSNUM دوم
۶05۲ |,
N ~
ae
N علامه
AD) علمیه
* کلمه سراسر»
PART
PREP
رهم
IDEN
POSNUM لاعمم
PRENUM ADJ
PREP ON
aD) IDEN
av PREM
رهم 0
N AD)
revs)
لا به رهم — ۱
صفحه 14:
افعال چند بخشی
— شناسایی فعل کمکی و ترکیب با فعل اصلی
* شناسایی کلمات ناشناخته- توجه به وندها
= وفتهای سازنده صفات نظیر: انگیزه گیو» من ورب
- وندهای صرف افعال: اند » اید . ایم و ...
- وندهای اسامی جمع: ان . گان» ها
- تك بيشفرض - اسم مفرد
صفحه 15:
- نسخه اولیه با ۱۷ برچسب
- پیکره ارزیابی شامل ۵۳۰۰۰ کلمه
- کلمات با برچسب صحیح- ۴۹۹۶۰
کلمات با برچسب صحیح
تمام کلمات پیکره ارزیابی
* دقت در این نسخه ٩۳۴.۲۶
7ت دقت برچسب گذار
صفحه 16:
تست قواعد و بهبود آنها
توسعه برچسب گذار در لایه دوم
* ایجاد پارسر زبان فارسی
صفحه 17:
با سپاس از توجهتان