صفحه 1:
مروری بر مهندسی زبان
آمهدی درم
نثاری
دانشجوی مقطع
دکتری رشته
علم اطلاعات و
خایو دک
علوم بهتشيقات
صفحه 2:
بح
زبانشناسی رایلنه ای کاربردی -21) ۸۱00160 بر فولید کاربردی مدلسازی زبان تمرکز دارد. شیوه هاء
تکنیک هاء ابزار و محصولات. در این حوزه اغلب تحت عنوان مهندسی زبان Language
pF 2 L3 Language Technology 3; s,38 Engineering LE
هدف. تولید نرم افزارهایی است که تا حدی دارای توانلیی دائش زبلنی انسان باشند. لین برنامه ها برای
بهبود تمامل انسان- ماشین بسیار مورد نیاز هستند زیرا عمده ترین مانع در تعامل بین انسان و کامپیوتر»
ارتباط است.
مهندسی زبان یا .| عبارت است از کاربرد ۷1۳ برای ساخت سیستمهای کامپیوتری برای پردازش
زبانهای طبیعی با هدفی غیر از مدلسازی خود زبان یا به عبارت دیگر استفاده ابزاری لز پردازش زبان
neal
/3 ه161 0660۲۸ : رشته لئاز علوم رلیانه ایلستکه با بسهرم گسیریاز لبزاوهایی
مانند دیکشتریهایماشینخونو تجزبه کننده جمله. بسه پردازشزبانطبیعیمیپردازد مانند
صفحه 3:
تارخچه ۱۱1.۳
"الا در مباحشمتعدد علوم کامپیوتر نظیر ترجمه ماشینی(۳۵۳5|۵10۳ ©1/1361110). هوش
Artificial intelligence). 25 و بازیابیلطلهات(۵1 ۲۳6۲۱6۷ aca, (Information
دارد.
NLP aus را می توان از تحقیق مقدماتی هایلل (/83۲-۳۷|116) در سال ۱۹۶۰ در زمینه ترجمه ماشین
محقق دانست (چلینی,۱۳۷۳). وی معتقد بود که ترجمه ای دارای کیفیت عللی و بطور خودکار است که
ماشین ترجمه, به جای فرهنگ لغت از دایره المعارفی عمومی استفاده کند.
تورینگ (109]ل1) نیز در مقلله ای زیر بنایی تحت عنوان «ماشین های محاسبه ای و هوش» در سال
۰ بحث کرد.
تورینگ این سوال را مطرح کرد که «آیا ماشین ها می توانند بیاندیشند؟»
وی بر همین اساس آزمون تورینگ (651] 111۲](9) را طراحی کرد که در آن زمان بازی تقلیدی نامیده
بود. (93۳06 1۳01۵1100 ۲۳6).
در این آزمون شرایطی فراهم میشود که شخصی با ماشینی تعامل برقرار کند و پرسشهای کافی برای
بررسی اقدامات هوشمندانه ماشین, از ُن بپرسد. چنانچه در پایان آزملیش نتولند تشخیص دهد که با لنسان
ویابا ماشین در تعامل بوده است. تست تورینگ با موفقیت انجام شده
آزمون با موفقیت بیرون نیامده لست. کوشث
که سعی در شبیهسازی انسان دارد.
یص درستی هوث
صفحه 4:
رش زبان طبیعی, برنامه گفت و شنود گرین (2۲66۲0)). برکلی
Ils 49 Gotlieb) 5,5 , (Berkeley) 140% ,05 که راجع به آب و هوا بحث می کرد. به عنوان
مثال به جمله ورودی:
٠ | 00 001 (0ز6 rain during July.
چنین پاسخ می داد:
+ Well, We don’t usually have rainy weather in July, so you will
probably not be disappointed.
به لحاظ ساختاری و مهندسی زبان. این برنامه. ضمن استفاده از رسته هایی که برای یافتن چارچوب جمله
پاسخ تلاش می کند. با رسته بندی واژگان جمله ورودی. اقدام به پر کردن جاهای خالی چارچوب پاسخ با
این واژگان يا واژگان ذخیره شده می نمود.
برنامه سادسام (0۲۵۲3۲۳ 5/0 6/٩0 نیز جملات انگلیسی را پذیرفته و ضمن اینکه اطلاعاتی
راجع به روابط خویشاوندی از آنها استخراج می نمود. برای نمایش اطلاعات شجره نامه ای طراحی شده. آنها
را در پایگاه سازمان يافته ای ذخیره می کرد.
حال دو بخش ساختار مبنای الا! يعنى روش هاى اجراى استنتاج بر اطلاعات ذخیره شده و طراحی
ساختارهای پایگاه داده های همه منظوره مطرح می شود.[]
صفحه 5:
تارخچه ۱۱1.۳
در سال ۱۹۶۴ دو برنامه استنتاج فیشر پلک 8۱361 501۱6۲) با نام «سیستم استنتاجی پاسخ به
J,is SIR «2b, , Deductive Question-Answering System) «yi, رافائل
نمود پیدا کرد.
برنامه فیشر از یک زبان رسمی که دارای نحوی مشابه با نحو متعارف بود برای ورودی. خروجی و پایگاه داده
ها استفاده می OS
برنامه ٩51۴-کارل رافلئل گزاره ها و سئوالات را به زبان انگلیسی پذیرفته و اطلاعات گزار ها را به شکل
نمودارهای ارتباطی با گره های نشان دهنده افراد و رده های افراد و قوس هایی که روابط بین آن ها را نشان
می داد ذخیره می کرد سپس به سوالاتی که بر اساس رولبط ذخیره شده و استنتاج های استخراج شده از
آنها بود پاسخ می داد.
در سال ۱۹۶۶ کویلیان (1311||أنا0) سيستم حافظه معناشناختی تحت عنوان «دریاقتگر
حافظه معناشناختی» (061۷۷0۲1 66۱۳3۲۱16) را مطرح می کند.
آموختنی و
صفحه 6:
مهندسی زبان» سیستمهای اطلاعاتی و رایانه
* زبان طبیعی (گفتاری و نوشتاری) واسطه تمام ارتباطات بین انسان هاست.
* همانطور که گفته شد. سیستم های NLP سیستم هلیی را شامل می شوند که برای
بازشناسی کلام. فهم زبان و نیز تولید زبان بکار می آیند.
* سیستم های فهم پیام و پردازش متن بدلیل این که اطلاعات را از متون مختلف
استحراج می کننه: برای استفاهه های بعدی به طرق مختلف تغییر شکل می دهند.
۶ عامل كنندء در استفاده از رابافه این است که آیا یک سیستم اطلاعات با
استفاده از قابلیت های رایانه می تواند بهبود یابد یا خیر؟
هر سیستم اطلاعاتی مبتنی بر رایلنه» به منظور تولید اطلاعات. پنج عنصر «افراد»»
ML aig» «داده ها» «نرم افزار» و «سخت افزار» را از طریق دست یابی و پردازش
داده ها در هم تلفیق می کند.
صفحه 7:
ساختار زیان
wy
* به منظور مهندسی زبان, لازم است ساختارهایی مورد توجه قرار گیرند که عمده ترین آنها
عبارتند از:
*_گرامرها (که در صفحات ۸۰ تا ٩۰ کتاب ساختواژه به خوبی تشریح شده است)
* طبقات واژگلنی «مثلا s Hut ,; Home. House. Cottage 28 3s! Building a3! « ,|
دارد که با كد براى 10109 ألاط و تخصيص كد 6 براى مولقه ديكر كه عكس آن الزا 3
> رابطه جزء و کل
اعم و اخص
مترادفات
تجزیه کننده ها : تجزیه سازی نحوی - تجزیه سازی مقلوب - شبکه گذار و ...
* مفتاشئاسى
شیوه های پردازش زان و
صفحه 8:
نمونه های کاربردی از ۶ در NLP
اینترفیسی زبان و دادگان
Natural language interfaces to
databases
سیستمهای سوال-جواب
Question-answering systems
سیستمهای سنتز گفتار
Speech synthesizer
ابزارهای تقویت دسترسی
Accessibility enhancement tools
یادگیری الکترونیکی
E-learning
فیلتر متن
Text filtering
سیستمهای گفتارنویسی
Speech transcription systems
سیستمهای ترجمه خودکار
Automated translation systems
موتور جستجو برای پیکره های متنی یا وب
Text corpora
خطایاب املاء دستور و سبک مانند پردازشگرهای
Word برنامه
Spelling, grammar and style
checkers
نرم افزار خلاصه سازی
Automatic abstracting
نرم افزار نمایه سازی
Automatic indexing
گنجواژه و اصطلاحنامه
Thesaurus
تولید متن
Text generation
صفحه 9:
NLP yo LE 5) مثالهایی ازنمونههای کاربردی
or
۰ سیستمهای سنتز گفتار 5۷۳۲۳6۵526۲ Speech
+ سیستم سنتز گفتار ۰ سیستم تولید مصنوعی زبان طبیعی و به عبارنی صحبت تولید شده توسط کامپیوتر است بدون
اينكه متنى از قبل وارد كامبيوتر شده باشد. يعنى هر جمله به صورت مستقل تولید می شود
۰ مدل مخقی مارکوق یکی آز بدلهای آماری متانتب برای مدل کردن دتباله پرمترهای گفتار نی باشید که آستفاده از آن
در سيستتم تبديل متن بذ گفتارهموفقتت آمیزبیده ادا
« موتورهای بازشناسی تحلیل ابعاد دادگان گفتااری. مدل تعمیم يافته هارمونیکی برای سنتز با کیفیت بالای گفتار و .. از
تلاش های حوزه سنتزگفتار در سال های اخیر به مشار می رود
Phasing
Intonation
‘tt
Analysis. | «س
Utterance
Utterance Duration
Composed ‘Composed
of Words Linguistic | of Phonemes
Analysis
صفحه 10:
*سیستمهای گفتارنوبسی
Potential IP Detection! Speech transcription
istic Processing for systems
EditDisflvency Correction
*فناوری های تشخیص گفتار
*فناوری های تبدیل گفتار به متن
ازجناسی گفتار از مونبیقی.
Prosodic Feature
Extraction
Duration, Energy Word Transciption
and PitchRelated Boundary| Textwith
Features Annotation
Potential IP
Extraction
صفحه 11:
* اینترفیس زبان و دادگان
Natural language interfaces to
databases
- 000 wie’
di Select Records Assistant Hel