مروری بر مهندسی زبان
اسلاید 1: مروری بر مهندسی زبانLanguage Engineeringمهدی درم نثاریدانشجوی مقطع دکتری رشتهعلم اطلاعات و دانش شناسیدانشگاه آزاد اسلامی واحدعلوم و تحقیقات تهراناستاد:خانم دکتر بهشتی
اسلاید 2: تعریفزبانشناسي رايانه اي کاربردي Applied CL بر فوايد کاربردي مدلسازي زبان تمرکز دارد. شيوه ها، تکنيک ها، ابزار و محصولات، در اين حوزه اغلب تحت عنوان مهندسي زبان Language Engineering LE يا فناوري زبان Language Technology قرار مي گيرند. هدف، توليد نرم افزارهايي است که تا حدي داراي توانايي دانش زباني انسان باشند. اين برنامه ها براي بهبود تعامل انسان- ماشين بسيار مورد نياز هستند زيرا عمده ترين مانع در تعامل بين انسان و کامپيوتر، ارتباط است. مهندسي زبان يا LE عبارت است از کاربرد NLP براي ساخت سيستمهاي کامپيوتري براي پردازش زبانهاي طبيعي با هدفي غير از مدلسازي خود زبان يا به عبارت ديگر استفاده ابزاري از پردازش زبان است.Oxford Dictionary : رشته ای از علوم رایانه ای است که با بهره گیری از ابزارهایی مانند دیکشنری های ماشین خوان و تجزیه کننده جمله، به پردازش زبان طبیعی می پردازد مانند ترجمه ماشینی و سنتز گفتار.
اسلاید 3: تاریخچه NLPNLP در مباحث متعدد علوم کامپیوتر نظیر ترجمه ماشینی (Machine translation)، هوش مصنوعی (Artificial intelligence) و بازیابی اطلاعات (Information retrieval) ریشه دارد.توسعه NLP را می توان از تحقیق مقدماتی هایلل (Bar-Hillel) در سال 1960 در زمینه ترجمه ماشین محقق دانست (چلینی،1373). وی معتقد بود که ترجمه ای دارای کیفیت عالی و بطور خودکار است که ماشین ترجمه، به جای فرهنگ لغت از دایره المعارفی عمومی استفاده کند.تورینگ (Turing) نیز در مقاله ای زیر بنایی تحت عنوان «ماشین های محاسبه ای و هوش» در سال 1950 بحث کرد.تورینگ این سوال را مطرح کرد که «آیا ماشین ها می توانند بیاندیشند؟» وی بر همین اساس آزمون تورینگ (Turing test) را طراحی کرد که در آن زمان بازی تقلیدی نامیده بود. (The imitation game).در این آزمون شرایطی فراهم میشود که شخصی با ماشینی تعامل برقرار کند و پرسشهای کافی برای بررسی اقدامات هوشمندانه ماشین، از آن بپرسد. چنانچه در پایان آزمایش نتواند تشخیص دهد که با انسان و یا با ماشین در تعامل بوده است، تست تورینگ با موفقیت انجام شده است. تا کنون هیچ ماشینی از این آزمون با موفقیت بیرون نیامده است. کوشش این آزمون برای تشخیص درستی هوشمندی یک سیستم است که سعی در شبیهسازی انسان دارد.
اسلاید 4: تاریخچه NLPاز نخستین برنامه های پردازش زبان طبیعی، برنامه گفت و شنود گرین (Green)، برکلی (Berkeley) و گوتلیب (Gotlieb) در سال 1959 بود که راجع به آب و هوا بحث می کرد. به عنوان مثال به جمله ورودی: I do not enjoy rain during July. چنین پاسخ می داد:Well, We don’t usually have rainy weather in July, so you will probably not be disappointed.به لحاظ ساختاری و مهندسی زبان، این برنامه، ضمن استفاده از رسته هایی که برای یافتن چارچوب جمله پاسخ تلاش می کند، با رسته بندی واژگان جمله ورودی، اقدام به پر کردن جاهای خالی چارچوب پاسخ با این واژگان یا واژگان ذخیره شده می نمود.برنامه سادسام (SAD SAM program) نیز جملات انگلیسی را پذیرفته و ضمن اینکه اطلاعاتی راجع به روابط خویشاوندی از آنها استخراج می نمود، برای نمایش اطلاعات شجره نامه ای طراحی شده، آنها را در پایگاه سازمان یافته ای ذخیره می کرد. حال دو بخش ساختار مبنای NLP یعنی روش های اجرای استنتاج بر اطلاعات ذخیره شده و طراحی ساختارهای پایگاه داده های همه منظوره مطرح می شود.
اسلاید 5: تاریخچه NLPدر سال 1964 دو برنامه استنتاج فیشر بلک (Fischer Black) با نام «سیستم استنتاجی پاسخ به سوالات» (Deductive Question-Answering System) و برنامه SIR کارل رافائل نمود پیدا کرد.برنامه فیشر از یک زبان رسمی که دارای نحوی مشابه با نحو متعارف بود برای ورودی، خروجی و پایگاه داده ها استفاده می کرد.برنامه SIR-کارل رافائل گزاره ها و سئوالات را به زبان انگلیسی پذیرفته و اطلاعات گزار ها را به شکل نمودارهای ارتباطی با گره های نشان دهنده افراد و رده های افراد و قوس هایی که روابط بین آن ها را نشان می داد ذخیره می کرد سپس به سوالاتی که بر اساس روابط ذخیره شده و استنتاج های استخراج شده از آنها بود پاسخ می داد.در سال 1966 کویلیان (Quillian) سیستم حافظه معناشناختی تحت عنوان «دریافتگر زبان آموختنی و حافظه معناشناختی» (Semantic network) را مطرح می کند.
اسلاید 6: مهندسی زبان، سیستم های اطلاعاتی و رایانهزبان طبیعی (گفتاری و نوشتاری) واسطه تمام ارتباطات بین انسان هاست.همانطور که گفته شد، سیستم های NLP، سیستم هایی را شامل می شوند که برای بازشناسی کلام، فهم زبان و نیز تولید زبان بکار می آیند.سیستم های فهم پیام و پردازش متن بدلیل این که اطلاعات را از متون مختلف استخراج می کنند، برای استفاده های بعدی به طرق مختلف تغییر شکل می دهند.عامل تعیین کننده در استفاده از رایانه این است که آیا یک سیستم اطلاعات با استفاده از قابلیت های رایانه می تواند بهبود یابد یا خیر؟هر سیستم اطلاعاتی مبتنی بر رایانه، به منظور تولید اطلاعات، پنج عنصر «افراد»، «رویه ها»، «داده ها»، «نرم افزار» و «سخت افزار» را از طریق دست یابی و پردازش داده ها در هم تلفیق می کند.
اسلاید 7: ساختار زبانبه منظور مهندسی زبان، لازم است ساختارهایی مورد توجه قرار گیرند که عمده ترین آنها عبارتند از:گرامرها (که در صفحات 80 تا 90 کتاب ساختواژه به خوبی تشریح شده است)طبقات واژگانی (مثلاً واژه Building امکان جایگزینی Home، House، Cottage و Hut و ... را دارد که با کد A برای building و تخصیص کد B برای مولفه دیگر که عکس آن الزاماً درست نیست)رابطه جزء و کلاعم و اخصمترادفاتتجزیه کننده ها : تجزیه سازی نحوی - تجزیه سازی مقلوب – شبکه گذار و ....معناشناسیشیوه های پردازش زبان و ......
اسلاید 8: نمونه های کاربردی از LE در NLPسيستمهاي گفتارنويسي Speech transcription systemsسيستمهاي ترجمه خودکار Automated translation systemsموتور جستجو براي پيکره هاي متني يا وب Text corpora خطاياب املا، دستور و سبک مانند پردازشگرهاي برنامه Word Spelling, grammar and style checkersنرم افزار خلاصه سازي Automatic abstractingنرم افزار نمايه سازي Automatic indexingگنجواژه و اصطلاحنامه Thesaurusتوليد متن Text generationاينترفيس زبان و دادگان Natural language interfaces to databasesسيستمهاي سوال-جواب Question-answering systemsسيستمهاي سنتز گفتار Speech synthesizerابزارهاي تقويت دسترسي Accessibility enhancement toolsيادگيري الكترونيكي E-learningفيلتر متن Text filtering
اسلاید 9: مثال هایی از نمونه های کاربردی از LE در NLPسيستمهاي سنتز گفتار Speech synthesizer : سیستم سنتز گفتار ، سیستم تولید مصنوعی زبان طبیعی و به عبارتی صحبت تولید شده توسط کامپیوتر است بدون اینکه متنی از قبل وارد کامپیوتر شده باشد، یعنی هر جمله به صورت مستقل تولید می شود.مدل مخفي ماركوف يكي از مدلهاي اماري مناسب براي مدل كردن دنباله پارامترهاي گفتار مي باشد كه استفاده از آن در سيستم تبديل متن به گفتار، موفقيت آميز بوده است.ﻣﻮﺗﻮرﻫﺎي ﺑﺎزﺷﻨﺎﺳﯽ ﺗﺤﻠﯿﻞ اﺑﻌﺎد دادﮔﺎن ﮔﻔﺘﺎاری، ﻣﺪل ﺗﻌﻤﯿﻢ ﯾﺎﻓﺘﻪ ﻫﺎرﻣﻮﻧﯿﮑﯽ ﺑﺮای ﺳﻨﺘﺰ ﺑﺎ ﮐﯿﻔﯿﺖ ﺑﺎﻻی ﮔﻔﺘﺎر و ... از تلاش های حوزه سنتزگفتار در سال های اخیر به مشار می رود.تحلیل متنگفتارمتشکل از کلماتگفتارمتشکل از واجها
اسلاید 10: مثال هایی از نمونه های کاربردی از LE در NLPسيستمهاي گفتارنويسي Speech transcription systemsفناوری های تشخیص گفتارفناوری های تبدیل گفتار به متنبازشناسی گفتار از موسیقی
اسلاید 11: مثال هایی از نمونه های کاربردی از LE در NLPاينترفيس زبان و دادگان Natural language interfaces to database
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.