کامپیوتر و IT و اینترنتعلوم مهندسی

اتوماتای یادگیر Learning Automata

صفحه 1:
۱۷/۷۷ | اتوما ای پا دگیر , Learning Automata © توید يذزكار - مضظفى تعمتى - ار .له

صفحه 2:
فر[یند یادگیری فرایندی که طی آن موجودات زنده مطللب مختلف را یاد می گیرند موضوع مورد علاقه بسیاری از دانشمندان بوده است. و 8 تحقیقاتی که در این زمینه صورت گرفته است در دو شاخه کلی متمرکز است: ۱-درک فرایندی که موجودات زنده در طی آن اقدام به یادگیری می کنند. ۲- بدست آوردن روش هایی که با استفاده از آنها بتوان این قابلیت را به ماشین منتقل نمود.

صفحه 3:
فر[یند یادگیری تعریف پادگیری: اعمال یک سری تفیبرات در کارایی سیستم براساس تجارب قبلی است. ۲ میاه دون ۲ مهمترین مشخصه یک سیستم یاد گیر: افزايش کارایی آن با گذشت زمان. .. ۵

صفحه 4:
فر[یند یادگیری تخریف ریاضیی ریک سيستتم ,یا گید ‎Gas‏ یک سیستم یادگیر بهینه سازی یک عملکرد است که کاملا امکان ناسایی آن وجود ندارد. 3 00 بر طبق اين تعريف: مى توان هدف سيستم يادكير رابه يك مساله بهينه سازى كه بر روى یک مجموعه پارامتر تعریف شده است کاهش داد و با بدست آوردن پارمترهای بهینه از طریق روش های موجود آن را حل کرد.

صفحه 5:
تارینیه (توماتای یادگیر ۲ ۷۷ یاج دنا مفهوم اتوماتای تصادفی ‎ab ods! Stochastic Automata)‏ توسط تستلین (165111۲0) در سال ۱۹۶۰ در اتحاد جماهیر شوروی ارائه شد. ۷ يس از آن در تحقیقات بعدی نمونه های مختلفی از کاربردهای روش های یادگیری در سیستم های مهندسی بوجود أمد كه از لن جمله مى توان به سیریاب تلفن. شناسایی الگو و تقسیم بندی اشیاء و کنترل قلبل تطبیة اشاره کرد. ۵٩ ‏از‎ © hs

صفحه 6:
تارینیه (توماتای یادکیر 7 در دهه ۶۰ میلادی سایپکین (5[01610) روشی برای ساده کردن مسائل فوق برای تشخیص پارامترهای بهینه و بکاربردن روش های تپه نوردی برای حل آن» معرفی کرد. ‘ تستلین و همکارائش در همان زمان کار. بر روی اتوماتاهای یادگیر را آغاز ‎oll gay 5"‏ بياد كير يراق أولين بار توس ی عظرح شد, 7 تستلین به مدلسازی رفتارهای سیسیتمهای بیولوژیکی علاقمند بود و یک اتوماتای قطعی که در محیط تصادفی فعالیت می کرد را به عنوان مدلی برای یادگیر معرفی کرد. ۵٩ ‏از‎ ©

صفحه 7:
تاریفیه (توماتای یادگیر رویکرد دیگری که توسط نارندرا (13۲6001۳3) و همکارش به کار 0 3 گرفته شد. در نظر گرفتن مساله به صورت بيدا كردن اقدام بهينه از ميان 3 مجموعه اقدام هاى مجاز اتوماتاى تصادفى بود. ۵٩ ‏از‎ 0

صفحه 8:
[توماتای یادکیر 7 یک اتوماتای یادگیر را می‌توان بصورت یک شی مجرد (۸۵۵5۲۲۵6 006) که دارای تعداد متناهی عمل است. در نظر گرفت. wor uz اتوماتای یادگیر با انتخاب یک عمل از مجموعه عمل های خود و اعمال آن بر محیطء عمل می‌کند. 7 عمل مذکور توسط یک محیط تصادفی ارزیلبی می‌شود و اتوملتا از پاسخ محیط برای انتخاب عمل بعدی خود استفاده می‌کند. * در طى اين فرايند اتوماتا ياد می‌گیرد که عمل بهینه را انتخاب نماید. ۵٩ ‏از‎ ©

صفحه 9:
(توماتای یادگیر ۱ 7 نحوه استفاده از پاسخ محیط به عمل انتخابی اتوماتا که در جهت انتخاب ۲ عمل بعدی اتوماتا استفاده می‌شود. توسط الگوریتم یادگیری اتوماتا مشخص می‌گردد. میاه جون۲۵ قسمت های اصلی اتوماتای یادگیر: ۱-یک اتوماتای تصادفی با تعداد محدودی عمل و یک محیط تصادفی که اتوماتا با آن در ارتباط است. ۲-لگوریتم یادگیری که اتوماتا با استفاده از آن عمل بهينه را ياد

صفحه 10:
(توماتای یادگیر < یک اتوماتا بصورت پنج‌تایی ۵۳,۵ )542 تعریف می‌شود که : 9 في جه 7/ * © > 2 تابع تولید وضعیت جدید. ۵٩ ‏از‎ ©

صفحه 11:
(توماتای یادگیر 2 ين ج+- © > © تابع خروجی که وضعیت فعلی را به خروجی بعدی 3 نگاشت می‌کند. 4,9 ...يك ,#) <(860 مجموعه وضعیت‌های داخلی اتوماتا در لحظه 0. می‌باشند. ۵٩ ‏از‎ ©

صفحه 12:
[توماتای یادکیر g 8 تجموعه خروجى هاى اتوماتا مجموعه ورودی های اتوماتا p= (BBs: Be}

صفحه 13:
(توماتای یادکیر 7 تولبع ۳ و 3) وضعیت فعلی ورودی رابه خروجی بعدی (عمل بعدی) اتوماتا نگاشت 4 بر حسب نگاشت های ۳ و 3) می توان تقسیم بندی زیر را انجام داد: wosayzqid man - اگر نگاشت‌های "و تاق باشند. اتوماتا یک اتوماتای ق و 9۳ ‎ishing!‏ ‎out (Deterministic Automata)‏ می‌شود. ‏یا طلاع از وضمیت فغلی اتوماتا و وروی انوماتا زیانخ عبط وضعیت بیدی اتومانا و افنام آن مشخضص می‌باشد: ‎ ‎

صفحه 14:
[توماتای یادگیر ۲- اگر نگاشت‌های ۴ و 3) تصادفی باشند. اتوماتا یک اتوماتای تصادفی ‎(Stochastic‏ نامیده می‌شود. ‎wioo"ayzou ‏با اطلاع از وضعیت فعلی اتوماتا و ورودی اتوماتا (پاسخ محیط)». فقط احتمال ‏وضعیت بعدی اتوماتا و اقدام آن مشخص می‌باشد. ‎ ‏© نس

صفحه 15:
تقسيم بندى اتوماتاها «Fixed Structure Automata) cot ‏اتوماتا ى با ساختار‎ 7 در اتوماتاى يادكير با ساختار ثابت احتمال عملهاى اتوماتا ثابت هستند. لمر مياه" دوننا «Variable Structure Automata) px» bls b cls! ~ در اتوماتای تصادفی با ساختار متفیر احتمالات عمل‌های اتوماتا در هر تکرار بروز می‌شوند. در اتوماتای یادگیر با ساختار متفیر تغییر احتمال‌های عمل‌ها بر اساس الگوریتم یادگیری انجام می‌شود.

صفحه 16:
در آتوماتلی یآذگیر با ساشتار متفیر وضعیت داقلی اتوماتا ۵ توسط ¢ احتمالات عملهاى اتوماتا بازنمايى مىشوند. وضعيت داخلی اتوماتا 90 + در لحظه ۱ را با بردار احتمال عملهاى اتوماتا (۳) كه در زير آمده است. نشان داده می‌شود: P(r) = {p1(7), P20)... Pr} ‏مور که‎ ‎vn . p(n) =Probla(n) =a,]‏ مک ‎a‏ ‏7 در آغاز فعالیت اتوماتء احتمال عمل‌های ن با هم برابر و مساوی ‏ می‌باشند (که ۲ تعداد عمل‌های اتوماتا می‌باشد). ‎۵٩ ‏از‎

صفحه 17:
ENVIROMENT ‏متیط‎ یادگیری در رویکرد مبتنی بر اتوماتاهای یادگیر. بصورت تشخیص یک اقدام /عمل بهینه از میان مجموعه اقدامهای مجاز می‌باشد. ۱ 9 اين اقدام در یک محیط تصادفی اعمال می‌شود. ‎٩‏ محیط با تولید یک خروجی به اقدام اعمال شده پاسخ می‌دهد. ..

صفحه 18:
محيط محیط را می‌توان توسط سه‌تایی [6 0/۰/3۰ سدق _ نشان داد که : بط ۵ < :0 ‎ta,‏ مجموعه ورودی‌های محیط (خروجی های اتوماتا» وه تبره :دونه “© ‎Bu‏ سيق +8 62 مجموعه خروجی‌های محیط (ورودی های اتوماتا؛ ‎{C,,09,..0,}'0‏ @ € مجموعه احتمال ماق تجزیمه النت: ‎

صفحه 19:
۵و جویی i i وه 3 ۱ 3 1 1 1 ? 1 محیط Pr(A(11) is unfavorable|a(n) = @,) =e, cj = Prob{ gon) =1] a(n) = ay}, i= (1,2... 7}

صفحه 20:
مجموعه خروجی های محیط مجموعه ورودی های محیط a= ‏.ب وه ريما‎ a,}

صفحه 21:
‎Cw aby)‏ (توماتای یادگیر و معبط ‏مع نميه :دوين ‎ ‎.. 2

صفحه 22:
مدل های مبیط بر حسب :8 ها (پاسخ محیط) داریم: چ مدل ۳: اگرخروجی محیط تنها دو مقدار ۰ وا را اختیار کند . . مدل 00 : تعداد محدود (به طور گسسته)؛ در بازه 1ه ۰] باشد. 1 مقل 5: چنانچه خروجی محیط یک متغیر تصادفی با مقادیر احتمال در ‎[+N] oj‏ باشد. mm)

صفحه 23:
مدل های مبیط c, = Pr(B(n) is unfavorablele(n) =) Sab ‏ها ثابت و مشخض‎ qs 90 7 نیازی به یادگیری نیست! 3 اقدام بهینه - اقدامی با کمترین جریمه. ۷مسائلی که.» ها ناشناخته هستند مورد نظر می‌باشند. .. ©

صفحه 24:
معیارهای رفتار (توماتای پادگیر ‎ly” |‏ اندازه كيرى كارليى اتوماتاى يادكير تصادقى شاخصهاى معينى تعريف روشهای مختلف یادگیری را فراهم می آورند . ‎3 ‎BS ‎Cc ‎gs ‎3 ‎3 ‎3 ‎۷ ‎a (Pure-Chance Automaton) (az. (ila ‏یک اتوماتاى‎ ‏صورت اتوماتایی تعریف می شود که عمل های آن هميشه احتمال یکسانی برای انتخاب شدن داشته باشند. ‎ ‏بنابرلین یک اتوماتای یادگیر بلید از یک اتوماتای تصادفی محض بهتر عمل کند. ‎۵٩ ‏از‎ © : ‎

صفحه 25:
معیارهای رفتار [توماتای یادگیر ۲ داده می شود که ,6 احتمال جریمه متناظر با عمل :2 است. الم2باه"دوننا *مقدار (1/1)0 به صورت ميانكين جريمه هاى دريافت شده توسط اتوماتا (براى یک بردار عمل مفروض) تعريف و بر اساس رابطه زيرمحاسبه مى مود [(2)ص /1- 69 ]ءظ - [(نيم ‎M(n) = E[A(n)!‏ © )بصت رح - [به > (۳:]6[به > ‎Pel B(m) =1/ a(n)‏ = 2 5 از ‎۵٩‏

صفحه 26:
معیارهای رفتار (توماتای پادگیر ا "برای یک اتوماتای تصادفی محض میانگین جریمه ها (1/)1 يك عدد ثابت والاا است که طبق رابطه زيربه دست مى آيد. لم 1 #بنابراین اتوماتایی که بخواهد بهتر از اتوماتای تصادفی محض ‎foe‏ كند بايد | میانگین جریمه های کمتری از 1۷/0 داشته باشد. | از آنجلیی که (۷)۲ یک متغیر تصادفی است امید ریاضی سل و/۷] مقایسه می شود. بنابراین اسلاید های بعد را خواهیم داشت. ۵٩ ‏از‎ ©

صفحه 27:
معیارهای رفتار [توماتای یادگیر اتوماتای یادگیر مصلحت اندیش]6۳ 66060 : worayzoid mma” lim E[M(n)]<M , “sl ey 5 ‏روت اه ارات‎ C8 Leal ee} eal” ‏اين نوع اتوماتون صرف بهتر از اتوماتون مبتنی بر شانس عمل می‌کند و‎ ‏رفتار بهینه ندارد.‎ .. 2

صفحه 28:
معیارهای رفتار [توماتای یادگیر 7 اتوماتای یادگیر بهینه 0011۳۳۵۱ : ‎FI‏ + (,6) 2190 ه ‎lim E/M(n)/ =c,‏ عجر ١ در حالى كه بهينه بودن اتوماتا يك ويزكى مطلوب در محيطى ايستا به شمار مى رود»ء در عمل ممكن است يك كارائى زيربهينه مورد نياز باشد. يك محيط واقعى معمولا متغير است و در صورتى كه توزيع متغير در طول زمان تغيير کند.از اتضلیی که الگفریتم بر روت ‎old elle ges‏ متوقف تقى ملند یک اتومادای تیته مخ تر می باشد. از ‎۵٩‏

صفحه 29:
معیارهای رفتار [توماتای یادگیر اتوماتای یادگیر بهینه 001[۳00۱-ع : lim L[M(n)]<c,te ,Ve>0 ¢, = min{e,} wor Bava "مناسب در یک محیط غیرایستا 00۳-511003۳۷ است. ., 2

صفحه 30:
معبارهای رفتار (توماتای یادگیر 7 اتوماتای یادگیر 606016( ۸۵050۱۱۲6۱۷ گفته می‌شود. اگر : ‎MG)‏ > [چم‌د | را م2 ‎Yn, YG) €(O), forall possiblesetsfey? = 12,...7)‏ ‎wooayzord man ‏علت آنکه در سمت راست نامساوی از امید ریاضی استفاده ننموده‌ليم آنست که چون مرحله 0ام را يشت سر گذاشته‌ايم. پس (۷۱)۲ ثلبت است ولی (1 +1)۲۱ احتمللی است و بستگی به ‎Jo p(n)‏ ‎ ‎۵٩ ‏از‎

صفحه 31:
معیارهای رفتار [توماتای یادگیر ‎Qo Gls © as Expediency 7‏ دهد که اتوماتای یادگیر بهتر از اتوماتای ‏+ تصادفی محض عمل می کند. بنابراین بهینگی شاخص مناسب تری برای مقایسه روش ‎cle‏ مختلف یادگیری می باشد. ‎youd ‎2 ‎3 ‏«بهینة بودن اطمینان می دهد که.عملی که توسط ائومائا انتخاب می لوف عملی بهینه باشد. در محیط های واقعی به علت متغیر بودن محیط رفتار زیر ‏بهینه ارجحیت دارد. ‎., © ‎

صفحه 32:
(لگوریتم یادگیری 2 الگوریتم یادگیری آ می تواند به صورت زیر نشان داده شود: Pn tl) = Tem), a), 80D) wooayzord man 7 اگر عملکرد خطی باشد الگوریتم یادگیر خطی و در غیر اين صورت غیرخطی نامیده می شود. ., ©

صفحه 33:
(لگوریتم پادگیری 7ایده اصلی الگوریتم های یادگیر به صورت زیر است: اگر اتوملتا در تکرار 10 ام عمل: 01 را انتخاب کند و از محیط پاسخ مطلوبی دریافت کند. احتمال 0 :مربوط به عمل انتخاب شده افزلیش می یابد و 9 احتمال سایر اعمال کاهش می یابد. ۲اگر پاسخ دریافتی از محیط نامطلوب باشد احتمال():کاهش و سایر احتمالات افزایش می یابد.

صفحه 34:
(لگوریتم یادگیری ‎man‏ مرو جویی ‎ ‎., ‏7 پاسخ مطلوب از محیط 8)0(<0 : ‏7 ز ,۷ ‏7 پاسخ نامطلوب از محیط 8)۴(<1 : ‎Wi, jel ‎pla D=p.@)+ Y flv) ja ‎jai ‎Pr = pj) filp)O] ‎HOrtl=,00-Yig L200) ‎pl ‎ye ‎pit) =pi)- g,Le 00]

صفحه 35:
(لگوریتم یادگیری *تولبع ,] و :9 دو تلبع غير منفی هستند که منظور پاداش و جریمه بکار برده ‎g‏ می شوند که به صورت زیر تعریف می شوند: > () ,هه - (( ‎fle,‏ ‏تا ‎b ‏روط[ ردارو‎ ( > ‏که‎ ‏تعداد لقدلم هایتوماتا‎ ۲ * ‎ ‎۵٩ ‏از‎

صفحه 36:
(لگوریتم یادگیری 7اگر پارامتر 2 و 10 مساوی باشند. طرح ياداش- جريمه خطى يا مهأ ۲ 9g (ge odgali (Learning Reward-Penalty) wwoo'ayzard'mn “در اين روش نرخ آيديت بردار احتمال در هر گام زملنی صرفنظر از پاسخ مسج كسان ‎eal)‏ ., 2

صفحه 37:
(لگوریتم یادگیری | < اگر پارامتر ۵ یادگیری بربر با صفر باشد. به اين روش پاداش خطی يا يهأ (86۷/۵۲۳۵-۱۱۵600 ۱6۵۳09) می گویند. wokeyzod mm أين به لين معنى آست كه احتمالات عمل :درببرابر ياسخ جايره از.محيط آبديت مى شود اما جريمه ها ازريابى نمى شوند. “اكر 3 >> ( باشد. روش يادكيرى جريمه جزيى- ياداش خطى يا ممأ بدست مى آید.

صفحه 38:
(لگوریتم یادگیری با استفاده از معادلات ذکر شده داریم: 4 F 7 Pint) = pm) +۵]1- 2, )([ تعر 87 (6رصده-0- لاجمارم wooayzordmam >: “اب - ياسخ نامطلوب ()بص(ة -1) - (1 + ).مر + + )1- ‏رمز‎ We fei 8

صفحه 39:
انواع اتوماتاهاى يادكير » اتوماتاهاى يادكير را بر اساس نوع بردار احتمال مى توان به دو دسته كلى تقسیم کرد: آتوماتاغانی با ساعتاز قات: 0818 اج دونه بردار احتمال آن در طى اجراى الكوريتم ثابت است. pty Steet gsty بردار احتمالات در طول اجرای الگوریتم تغییر می کند. ., 2

صفحه 40:
(نواع [توماتاهای یادگیر با سانتار ثابت ” اتوماتاى يادكير با ساختار ثابت را با يك پنج تایی به شکلم(ق, 0 ,],0) ۸ نشان می دهندکه در آن 0 مجموعة عمل هاء 0 مجموعهٌ ورودی ها ۱ از محیط. ۳ تابع تغییر وضعیت براساس پاسخ محیط و 3) تابعی است که وضعیت فعلی را به خروجی بعدی نگاشت می کند. ‎Db‏ مجموعه حالات داخلی اتوماتاست. ۵٩ ‏از‎ ©

صفحه 41:
(نواع [توماتاهای یادگیر با سانتار ثابت ۱- اتوماتای و وا : ین اتوماتا تنها دارای دو حللت :0 و2 و دوخروجی و0 و02 است. وأ ودیبه اتوماتا دومقدار( ‎cad (Ve‏ اتوماتا با دریاقت بورودین 1 حالت تقوو 09} را عوض می کند و با دریافت ورودی ۰ در همان حالت می ماند. ‎B} , {a,, O}, {C,, C,},‏ ,,®{ }0,1{ ۰ Oe «O ‏سم‎ > 0

صفحه 42:
1 (نواع (توماتاهای یادکیر با سافتار ثابت ۲- اتوماتای دوجا 5 ان اتومانا تغییر یافته اتوماتای ممااست که دارای2 لا حالت و دو اقدام خی باشد. |3 اتوماتای و ابا دريافت جواب نامطلوب به عمل ديكر انتقال مى يافت اما در لین نوع اتوماتا برای هر عمل تعداد موفقیت ها و شکست ها نگه داری شده و تنها زملنی تغییر حللت روی می دهد که تعداد شکست ها از تعداد موفقیت ها بیشتر شود. © ۵٩ ‏از‎ |

صفحه 43:
(نواع [توماتاهای یادکیر با سافتار ثابت در این اتوماتا حالات ,2 ,492,۰۰۰ ‎Dy,‏ مربوط به اقدام 0 و حالات برع ,۰۰ بعبیر موبیو مربوط به اقدام له است. 2 2-1 ۱+3 2+1 پاسخ مطلوب 8-0 0 7 ياغ نامطلوب 6-1

صفحه 44:
1 ۱ (نواع [توماتاهای یادگیر با سانتار ثابت ۳- اتوماتای کرینسکی ‎Krinsky)‏ رفتار این اتوماتا در برابر پاسخ مطلوب. حللت ‎Dj‏ به ازای لا...,1,2-)به حللت و40 می رود و در جلت ,4 به ازاى (/2.,..,20+/1,8+/8)-1 به حللت ربیر تغيير مى یابد. اين اتومتا برای پاسخ تإمطلوب مانند اتوماتاى دروأ مى كند. 1

صفحه 45:
(نواع [توماتاهای یادگیر با سانتار ثابت ‎man‏ مرو جویی ‏مبهبو.-- و ۲ هبو ‎»N failures are needed to have a state change ‎۵٩ ‏از‎ © ‎

صفحه 46:
(نواع [توماتاهای یادگیر با سانتار ثابت ۴- اتوماتای کرایلوف (۲۷۱۵۷): این اتوماتا برای پاسخ مطلوب ‎asl‏ اتوماتای وپریاعمل می کند. اما با ٌشاهده پاسخ نامطلوب از محیط با احتمال ۰/۵ از حالت 0 که 1,2 +۶1,۱۱,۱1 )_ به حالت عبرم و یا در می رود. 5 وو 0.5 ال طخت تن 1 2 2۳ 2211-1 ۲+2 +1 b=1 ۵٩ ‏از‎ ©

صفحه 47:
» When Automaton encountered with a failure,Each state ®, is changed to © with probability 2 or to ©,, with probability ۰

صفحه 48:
[توماتای یادگیر با سافتار متغیر یک اتوماتای یادگیر با ساختار متفییر به صورت زیر تعریف می شود: ‎LA = {a,b,p,T,c}‏ م ]4 ما مدرزة وقاع - ةسمه عمل مد ‎Da, Dabo‏ برط 4 ‎D=‏ مجموعه ورودی‌ها * (مم ,...,روم ,رم 4 > م بردار لحتطإإنتخابهط ‏* [(0)م,(م)ط,(م) ]1 > (0+1)م : 1 الكوييتم يادكيرى * ل[ ,...,رو© ,ره > © مجموعه لحتطزهاوجريمه. ‎win teal gg‏ وبا الم سم دهم ۱ ‎۵٩ ‏از‎ ‎

صفحه 49:
(توهاتاى يادكير با ساثتار متغير *اكر عمل 0 در مرحله ‎1١‏ انتخاب و محيط ياسخ مطلوب بدهد ‎a ۱‏ 22 :. احتمال ‏ "* افزایش و سایر احتمالات کاهش می یابد. اگر محیط پاسخ ‎PHD‏ کاهش و سایر احتمالات افزایش می یابد. "در هر حال,تفییرات بگونه‌ای صورت می‌پذیرد که حاصل جمع تمام (0) ,۵ ها همواره برابر با ۱ است. ‎ ‏© نل

صفحه 50:
ویژگی‌های [توماتاهای بادگیر #برای استفاده از اتوماتای یادگیر در یک کاربرد باید ویژگی های بنیادی ۳ ‎i‏ اتوماتاهای یادگیر و طبیعت کاربرد را با هم در نظر گرفت. wooayzoid 7 اتوماتاهای یادگیر با دارا بودن ویژگی‌های اسلاید بعد به عنوان ابزار قدرتمندی در حل بسیاری از مسائل استفاده گردیده است. .. 2

صفحه 51:
ویزگی‌های (توماتاهای پادگیر ۱- اتوماتاهای یادگیر در شرایطی که هیچگونه اطلاعاتی در دسترس نیست به خوبی عمل م ى ‎ani‏ ۲- اتوماتاهای يادكير براى بهبود وضعيت خود در هر مرحله به يك بازخورد ساده از محیظط نیازردارند. wooayzoud iin ۳- اتوماتاهای یادگیر به عنوان مدلی برای یادگیری در محیطهای توزیع‌شده و چند عامله با ارتباطات محدود و اطلاعات ناقص بسیار کارساز هستند. "2 - اتوماتاهای یادگیر در شرایطی که عدم اطمینان وجود دارد دارای عملکرد خوبی م باقتفقه

صفحه 52:
ویژگی‌های [توماتاهای بادگیر 7 ۵- اتوماتاهای یادگیر عمل جستجو را در فضای احتمال انجام می‌دهند. ۶- اتوماتاهای یادگیر ساختاری ساده دارند و به همین دلیل به سادگی در نرم‌افزار یا سخت‌افزار قابل پیاده‌ساژی هستند. 0 7 ۷- اتوماتاهای یادگیر دارای بار محاسباتی بسیار کم می‌باشند و به همین دلیل به سادگی در کاربردهای بلادرنگ قابل استفاده می‌باشند.

صفحه 53:
ویزکی‌های (توماتاهای پادکیر از طرف دیگر استفاده از اتوماتاهای یادگیر در کاربردهایی مفید است که یک یا چند خصوصیت زیر را درا باشند: ۱- کاربرد به اندازمی کافی پیچیده و نامطمئن باشد به طوریکه یک مدل ریاضی برای آن موجود نباشد. مق وجوین 7 - کاربرد قابلیت کنترل توزیمی و مدل سازی توسط مجموعه‌ای از عامل های خودمختار را داشته باشد. 2 ۳- سیگنال تقویتی یک متفیر تصادفی باشد و بر اساس معیار کارایی تولید گردد.

صفحه 54:
ویزگی‌های (توماتاهای یادگیر ع بهبود کمی در کارایی مورد نظر صرفه‌ی اقتصادی بالایی داشته باشد. 3 گرم 58 7 ‎ah geal:‏ 3 الگوریتم قطعی برای کاربرد مورد نظر وجود نداشته باشد. ©

صفحه 55:
متدودیت ها (توماتاهای یادگیر - اتوماتاهای یادگیر از اطلاعات اولیهی کمی استفاده می‌کنند و اطلاعات اضافی درباره‌ی محیط هميشه در اتوماتاهای یادگیر قابل استفاده نمی‌باشد. اال وجو لني ۲- نرخ همگرایی اتوماتاهای یادگیر برای بسیار از کاربردها پایین می‌باشد. ۷- اتوماتاهای یادگیر مدل های غیر متداعی می‌باشند. ۵٩ ‏از‎ ©

صفحه 56:
(توماتای بادگیر توزیع شده ۱ 7 اتوماتای یادگیر توزیع شده (01۵) . شبکه‌ای از اتوماتاهای یادگیر است که ٍ برای حل یک مساله با یکدیگر همکاری می نمایند. هت مد تعداد اقدامهای یک اتوملتا در ماه برابر تعداد اتوماتاهای یادگیر متصل ۱ به این اتوماتای یادگیر می باشد. | *انتخاب یک اقدام توسط یک اتوماتای یادگیر در شبکه. اتوماتای یادگیر متناظر با اين اقدام را فعال مى سازد.

صفحه 57:
(توماتای یادگیر توزیم شده 0 مثال: اتوماتای یادگیر توزیع شده (01۵) با ۳ اتوماتا ی یادگیر woo'ayzardmnn ..

صفحه 58:
(توماتای یادکیر توزیع شده در شکل قبل هر اتوماتا یادگیر دارای دو اقدام می باشد. و خاب اقدام ۵ توسط ‏ , اتوملتا يادكير دل را فعال خواهد کرد. انوماای یادگیر فعال شده (یاطاسپس یکی از اقدامهای خود را انتخاب می کند که در نتیجه آن یکی از اتوماتاهای یادگیر متصل به آن اتوماتاى يادكير که متناظر با اقدام انتخاب شده می باشد فعال می شود. در هر زمان فقط یک توماتای یادگیر در شبکه فعال میباشد. ۵٩ ‏از‎ ©

صفحه 59:
جموعه اتوماتاهای یادگیر و (] تعداد اتوماتاهای یادگیر در ها و ۵ اعه لبه‌های گراف می باشده تعریف کرد. بو 8 وخ برل ,1) اقدام [ اتوملتا ى يادكير فلس را نشان می دهد. ازملنی فعال خواهد شد که اقدام ‎j‏ اتاماتاى يادكير بكم انتخاب شود. تعداد اقدامهاى اتوماتاى يادكير وأضيط ( 2:۰۰ *) برابردرجه‌ی خروجی گره متنظر با اتوماتای یادگیر ‏ مى باشد. (توماتای یادکیر توزیع شده 7 بطور رسمی ‎cles |, DLA‏ توسط كراف ‎V= (0A, £4.04) as DEA = (VE)‏

صفحه 60:
woo'ayzardmnn

www.Prozhe.com Learning Automata 90 اپئیز- نوید بذرکار – مصطفی نعمتی www.prozhe.com اتوماتای یادگیر فرایند یادگیری ‏www.prozhe.com فرایندی که طی آن موجودات زنده مطالب مختلف را یاد می گیرند موضوع مورد عالقه بسیاری از دانشمندان بوده است. تحقیقاتی که در این زمینه صورت گرفته است در دو شاخه کلی متمرکز است: ‏Learning Automata -1درک فرایندی که موجودات زنده در طی آن اقدام به یادگیری می کنند. -2بدست آوردن روش هایی که با استفاده از آنها بتوان این قابلیت را به ماشین منتقل نمود. 2 از 59 فرایند یادگیری ‏www.prozhe.com تعریف یادگیری: اعمال یک سری تغییرات در کارایی سیستم براساس تجارب قبلی است. ‏Learning Automata مهمترین مشخصه یک سیستم یادگیر: افزایش کارایی آن با گذشت زمان. 3 از 59 فرایند یادگیری ‏www.prozhe.com تعریف ریاضی یک سیستم یادگیر: هدف یک سیستم یادگیر بهینه سازی یک عملکرد است که کامال امکان شناسایی آن وجود ندارد. ‏Learning Automata بر طبق این تعریف: می توان هدف سیستم یادگیر را به یک مساله بهینه سازی که بر روی ی ک مجموع ه پارامت ر تعری ف شده اس ت کاه ش داد و ب ا بدست آوردن پارمترهای بهینه از طریق روش های موجود آن را حل کرد. 4 از 59 تاریخچه اتوماتای یادگیر ‏www.prozhe.com مفهوم اتوماتای تص ادفی ( )Stochastic Automataاولین بار توسط تستلین ( )Testlinدر سال 1960در اتحاد جماهیر شوروی ارائه شد. ‏Learning Automata پس از آن در تحقیقات بعدی نمونه های مختلفی از کاربردهای روش های یادگیری در سیستم های مهندسی بوجود آمد که از آن جمله می توان به مسیریاب تلفن ،شناسایی الگو و تقسیم بندی اشیاء و کنترل قابل تطبیق اشاره کرد. 5 از 59 تاریخچه اتوماتای یادگیر ‏www.prozhe.com در دهه 60میالدی سایپکین ( )Sypkinروشی برای ساده کردن مسائل فوق برای تشخیص پارامترهای بهینه و بکاربردن روش های تپه نوردی برای حل آن ،معرفی کرد. تستلین و همکارانش در همان زمان کار ،بر روی اتوماتاهای یادگیر را آغاز کردند و مفهوم اتوماتای یادگیر برای اولین بار توسط وی مطرح شد. ‏Learning Automata تستلین به مدلسازی رفتارهای سیسیتمهای بیولوژیکی عالقمند بود و یک اتوماتای قطعی که در محیط تصادفی فعالیت می کرد را به عنوان مدلی برای یادگیر معرفی کرد. 6 از 59 www.prozhe.com تاریخچه اتوماتای یادگیر رویکرد دیگری ک ه توس ط نارندرا ( )Narendraو همکارش به کار گرفته شد ،در نظر گرفتن مساله به صورت پیدا کردن اقدام بهینه از میان ‏Learning Automata مجموعه اقدام های مجاز اتوماتای تصادفی بود. 7 از 59 اتوماتای یادگیر ‏www.prozhe.com يک اتوماتاي يادگير را مي‌توان بص ورت يک شئ مجرد (Abstract )Objectکه داراي تعداد متناهي عمل است ،در نظر گرفت. ‏Learning Automata اتوماتاي يادگير با انتخاب يک عمل از مجموعه عمل هاي خود و ا ِعمال آن بر محيط ،عمل مي‌کند. عمل مذکور توسط يک محيط تصادفي ارزيابي مي‌شود و اتوماتا از پاسخ محيط براي انتخاب عمل بعدي خود استفاده مي‌کند. در طي اين فرايند اتوماتا ياد مي‌گيرد که عمل بهينه را انتخاب نمايد. 8 از 59 اتوماتای یادگیر ‏www.prozhe.com نحوه استفاده از پاسخ محيط به عمل انتخابي اتوماتا که در جهت انتخاب عمل بعدي اتوماتا استفاده مي‌شود ،توسط الگوريتم يادگيري اتوماتا مشخص مي‌گردد. ‏Learning Automata قسمت های اصلی اتوماتای یادگیر: -1يک اتوماتاي تصادفي با تعداد محدودي عمل و يک محيط تصادفي که اتوماتا با آن در ارتباط است. -2الگوريتم يادگيري که اتوماتا با استفاده از آن عمل بهينه را ياد مي‌گيرد. 9 از 59 اتوماتای یادگیر ‏www.prozhe.com يک اتوماتا بصورت پنج‌تايي تعريف مي‌شود که : مجموعه عمل‌هاي اتوماتا است و rتعداد عمل های ‏o اتوماتا. ‏Learning Automata ‏o مجموعه ورودي‌هاي اتوماتا، ‏o تابع توليد وضعيت جديد، 10 از 59 اتوماتای یادگیر ‏www.prozhe.com ‏o تابع خروجي که وضعيت فعلي را به خروجي بعدي نگاشت مي‌کند، مجموعه وضعيت‌هاي داخلي اتوماتا در لحظه ،n ‏o ‏Learning Automata مي‌باشند. 11 از 59 www.prozhe.com اتوماتای یادگیر مجموعه خروجی های اتوماتا حاالت داخلی اتوماتا }Φ(n)={Φ1 Φ2,…, Φk ‏Learning Automata 12 از 59 مجموعه ورودی های اتوماتا اتوماتای یادگیر ‏www.prozhe.com توابع Fو Gوضعيت فعلي ورودي را به خروجي بعدي (عمل بعدي) اتوماتا نگاشت مي‌کنند. بر حسب نگاشت های Fو Gمی توان تقسیم بندی زیر را انجام داد: -1اگ ر نگاشت‌هاي Fو Gقطع ي باشن د ،اتومات ا يک اتوماتاي قطعي ‏Learning Automata ( )Deterministic Automataناميده مي‌شود. با اطالع از وضعیت فعلی اتوماتا و ورودی اتوماتا (پاسخ محیط) ،وضعیت بعدی اتوماتا و اقدام آن مشخص می‌باشد. 13 از 59 اتوماتای یادگیر ‏www.prozhe.com -2اگر نگاشت‌هاي Fو Gتصادفي باشند ،اتوماتا يک اتوماتاي تصادفي ( )Stochasticناميده مي‌شود. ‏Learning Automata با اطالع از وضعیت فعلی اتوماتا و ورودی اتوماتا (پاسخ محیط) ،فقط احتمال وضعیت بعدی اتوماتا و اقدام آن مشخص می‌باشد. 14 از 59 تقسیم بندی اتوماتاها ‏www.prozhe.com ‏ ‏ اتوماتا ی با ساختار ثابت (:)Fixed Structure Automata در اتوماتاي یادگیر با ساختار ثابت احتمال عمل‌هاي اتوماتا ثابت هستند. اتوماتای با ساختار متغير (:)Variable Structure Automata ‏Learning Automata در اتوماتاي تصادفي با ساختار متغير احتماالت عمل‌هاي اتوماتا در هر تکرار ب ِروز مي‌شوند. در اتوماتاي يادگير با ساختار متغير ،تغيير احتمال‌هاي عمل‌ها بر اساس الگوريتم يادگيري انجام مي‌شود. 15 از 59 تقسیم بندی اتوماتاها ‏www.prozhe.com توسط در اتوماتاي يادگير با ساختار متغير وضعيت داخلي اتوماتا احتماالت عمل‌هاي اتوماتا بازنمايي مي‌شوند .وضعيت داخلي اتوماتا در لحظه nرا با بردار احتمال عمل‌هاي اتوماتا ) P(nکه در زير آمده است ،نشان داده مي‌شود: بطوري‌که: ‏Learning Automata ‏ در آغاز فعاليت اتوماتا ،احتمال عمل‌هاي آن با هم برابر و مساوي مي‌باشند (که r تعداد عمل‌هاي اتوماتا مي‌باشد). 16 از 59 محیط ENVIROMENT ‏www.prozhe.com ‏يادگيري در رويكرد مبتني بر اتوماتاهاي يادگير ،بصورت تشخيص يك ‏o ‏Learning Automata ‏o اقدام/عمل بهينه از ميان مجموعه اقدامهاي مجاز مي‌باشد. اين اقدام در يك محيط تصادفي ا ِعمال مي‌شود. محيط با توليد يك خروجي به اقدام اعمال شده پاسخ مي‌دهد. 17 از 59 محیط ‏www.prozhe.com ‏محيط را مي‌توان توسط سه‌تايي نشان داد که : ‏o مجموعه ورودي‌هاي محيط (خروجی های اتوماتا)، ‏o مجموعه خروجي‌هاي محيط (ورودی های اتوماتا)، ‏Learning Automata ‏o مجموعه احتمال‌هاي جريمه است. 18 از 59 محیط ‏www.prozhe.com دریافت اسخ ن ام طلوباز م حیط هنگام یکه اقدام iدر م حیط اعما ل پ ci oاحتما ل ‌ش ود. می ‏Learning Automata oیا 19 از 59 www.prozhe.com محیط مجموعه خروجی های محیط ‏Learning Automata 20 از 59 محیط مجموعه ورودی های محیط www.prozhe.com رابطه بین اتوماتای یادگیر و محیط ‏Learning Automata 21 از 59 مدل های محیط بر حسب βiها (پاسخ محيط) داریم: ‏www.prozhe.com • مدل : P اگرخروجی محیط تنها دو مقدار 0و 1را اختیار کند . ‏Learning Automata • مدل : Q تعداد محدود (به طور گسسته) ،در بازه [ ]0 ،1باشد. • مدل : S چنانچه خروجی محیط یک متغیر تصادفی با مقادیر احتمال در بازه []0 ،1 باشد. 22 از 59 مدل های محیط ‏www.prozhe.com اگر ciها ثابت و مشخص باشد؟ • نيازي به يادگيري نيست! • اقدام بهينه = اقدامي با كمترين جريمه. ‏Learning Automata ‏مسائلی که ciها ناشناخته هستند مورد نظر می‌باشند. 23 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com براي اندازه گيري کارايي اتوماتاي يادگير تصادفي شاخصهاي معيني تعريف شده اند که امکان مقايسه روشهاي مختلف يادگيري را فراهم مي آورند . ‏Learning Automata ‏يک اتوماتاي تصادفی محض ( )Pure-Chance Automatonبه صورت اتوماتايي تعريف می شود که عمل هاي آن هميشه احتمال يکساني براي انتخاب شدن داشته باشند. بنابراين يک اتوماتاي يادگير بايد از يک اتوماتاي تصادفی محض بهتر عمل کند. 24 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com ‏محيط توسط احتماالت جريمه داده می شود که ciاحتمال جریمه متناظر با عمل نشان است. ‏Learning Automata مقدار ) M(nبه صورت ميانگين جريمه هاي دريافت شده توسط اتوماتا (براي يک بردار عمل مفروض) تعريف و بر اساس رابطه زیرمحاسبه می شود. 25 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com براي يک اتوماتاي تصادفی محض ميانگين جريمه ها ) M(nیک عدد ثابت M0است که طبق رابطه زیربه دست می آید. ‏Learning Automata بنابراين اتوماتايي که بخواهد بهتر از اتوماتاي تصادفی محض عمل کند بايد ميانگين جريمه هاي کمتري از M0داشته باشد. از آنجایی که ) M(nیک متغیر تصادفی است امید ریاضی ) M(nبا M0مقايسه می شود .بنابراين اسالید های بعد را خواهيم داشت. 26 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com اتوماتای یادگیر مصلحت اندیش: expedient اگر: ‏Learning Automata ‏اين نوع اتوماتون صرف بهتر از اتوماتون مبتني بر شانس عمل مي‌كند و رفتار بهينه ندارد. 27 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com اتوماتای یادگیر بهینه : Optimal اگر : ‏Learning Automata در حالي که بهينه بودن اتوماتا يک ويژگي مطلوب در محيطي ايستا به شمار مي رود ،در عمل ممکن است يک کارائي زيربهينه مورد نياز باشد. يک محيط واقعي معموال متغير است و در صورتی که توزیع متغیر در طول زمان تغییر کند از آنجايي که الگوريتم بر روي هيچ حالت خاصي متوقف نمي ماند يک اتوماتاي نيمه بهينه مناسب تر می باشد. 28 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com اتوماتای یادگیر بهینه : ε-Optimal اگر : ‏Learning Automata ‏مناسب در یک محیط غیرایستا non-stationaryاست. 29 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com اتوماتاي يادگير Absolutely Expedientگفته مي‌شود ،اگر : ‏Learning Automata علت آنكه در سمت راست نامساوي از اميد رياضي استفاده ننموده‌ايم آنست كه چون مرحله nام را پشت سر گذاشته‌ايم .پس ) M(nثابت است ولي ) M(n+1احتمالي است و بستگي به ) p(nدارد. 30 از 59 معیارهای رفتار اتوماتای یادگیر ‏www.prozhe.com Expediency بندرت نشان می دهد که اتوماتاي يادگير بهتر از اتوماتاي تصادفی محض عمل می کند .بنابراين بهينگی شاخص مناسب تري براي مقايسه روش هاي مختلف يادگيري می باشد. ‏Learning Automata بهينه بودن اطمينان می دهد که عملي که توسط اتوماتا انتخاب می شود عملي بهينه باشد .در محيط هاي واقعي به علت متغير بودن محيط رفتار زير بهينه ارجحيت دارد. 31 از 59 الگوریتم یادگیری ‏www.prozhe.com الگوریتم یادگیری Tمی تواند به صورت زیر نشان داده شود: ‏Learning Automata اگ ر عملکرد خط ی باش د الگوریت م یادگی ر خط ی و در غی ر ای ن صورت غیرخطی نامیده می شود. 32 از 59 الگوریتم یادگیری ‏www.prozhe.com ایده اصلی الگوریتم های یادگیر به صورت زیر است: ‏اگر اتوماتا در تکرار nام عمل دریافت کند ،احتمال را انتخاب کند و از محیط پاسخ مطلوبی مربوط به عمل انتخاب شده افزایش می یابد و ‏Learning Automata احتمال سایر اعمال کاهش می یابد. ‏اگ ر پاس خ دریافت ی از محی ط نامطلوب باش د احتمال احتماالت افزایش می یابد. 33 از 59 کاه ش و سایر الگوریتم یادگیری ‏www.prozhe.com پاسخ مطلوب از محيط : β(n)=0 ‏Learning Automata پاسخ نامطلوب از محيط : β(n)=1 34 از 59 الگوریتم یادگیری ‏www.prozhe.com توابع fiو giدو تابع غیر منفی هستند که منظور پاداش و جریمه بکار برده می شوند که به صورت زیر تعریف می شوند: ‏Learning Automata که: • rت عداد اقدام هایاتوماتا، است • aپ ارام تر پ اداشو bپ ارام تر جریمه . 35 از 59 الگوریتم یادگیری ‏www.prozhe.com ‏اگر پارامتر aو bمساوی باشند .طرح پاداش -جریمه خطی یا LRP ) (Learning Reward-Penaltyنامیده می شود. ‏Learning Automata ‏در این روش نرخ آپدیت بردار احتمال در هر گام زمانی صرفنظر از پاسخ محیط ،یکسان است. 36 از 59 الگوریتم یادگیری ‏www.prozhe.com اگر پارامتر bیادگیری برابر با صفر باشد ،به این روش پاداش خطی یا ‏LRI ) (Learning Reward-Inactionمی گویند. این به این معنی است که احتماالت عمل در برابر پاسخ جایزه از محیط آپدیت می شود ،اما جریمه ها ازریابی نمی شوند. ‏Learning Automata اگر b ≪ aباشد ،روش یادگیری جریمه جزیی -پاداش خطی یا LRεPبدست می آید. 37 از 59 الگوریتم یادگیری با استفاده از معادالت ذكر شده داريم‌: ‏www.prozhe.com ‏آ – پاسخ مطلوب ‏Learning Automata ‏ب – پاسخ نامطلوب 38 از 59 انواع اتوماتاهای یادگیر ‏www.prozhe.com اتوماتاهای یادگیر را بر اساس نوع بردار احتمال می توان به دو دسته کلی تقسیم کرد: اتوماتاهایی با ساختار ثابت: بردار احتمال آن در طی اجرای الگوریتم ثابت است. ‏Learning Automata اتوماتای ساختار متغیر: بردار احتماالت در طول اجرای الگوریتم تغییر می کند. 39 از 59 انواع اتوماتاهای یادگیر با ساختار ثابت ‏www.prozhe.com اتوماتای یادگیر با ساختار ثابت را با یک پنج تایی به شکل نشان می دهندکه در آن αمجموعۀ عمل ها β ،مجموعۀ ورودی ها از محیط F ،تابع تغییر وضعیت براساس پاسخ محیط و Gتابعی است که وضعیت فعلی را به خروجی بعدی نگاشت می کند .تابع Φمجموعه ‏Learning Automata حاالت داخلی اتوماتاست. 40 از 59 انواع اتوماتاهای یادگیر با ساختار ثابت -1اتوماتای : L2,2 ‏www.prozhe.com این اتوماتا تنها دارای دو حالت ϕ1و ϕ2و دوخروجی α1و α2است. ورودی به اتوماتا دو مقدار{ }1،0است .اتوماتا با دریافت ورودی 1حالت خود را عوض می کند و با دریافت ورودی 0در همان حالت می ماند. ‏Learning Automata {Φ1, Φ2} , {α1, α2} , {c1, c2} , }{0,1 41 از 59 انواع اتوماتاهای یادگیر با ساختار ثابت -2اتوماتای : L2N,2 ‏www.prozhe.com این اتوماتا تغییر یافته اتوماتای L2,2است که دارای N 2حالت و دو اقدام می باشد. ‏اتوماتای L2,2با دریافت جواب نامطلوب به عمل دیگر انتقال می یافت اما ‏Learning Automata در این نوع اتوماتا برای هر عمل تعداد موفقیت ها و شکست ها نگه داری شده و تنها زمانی تغییر حالت روی می دهد که تعداد شکست ها از تعداد موفقیت ها بیشتر شود. 42 از 59 انواع اتوماتاهای یادگیر با ساختار ثابت ‏www.prozhe.com • در این اتوماتا حاالت ϕ1, ϕ2,..., ϕNمربوط به اقدام α1و حاالت ϕN+1, ϕN+2,..., ϕ2Nمربوط به اقدام α2است. ‏N+3 N+2 N+1 2N 2N-1 ‏N ‏N-1 2 3 1 ‏Learning Automata پاسخ مطلوب β=0 ‏N+3 N+2 N+1 43 از 59 2N 2N-1 پاسخ نا مطلوب β=1 ‏N-1 N 3 2 1 انواع اتوماتاهای یادگیر با ساختار ثابت -3اتوماتای کرینسکی (: )Krinsky ‏www.prozhe.com رفتار این اتوماتا در برابر پاسخ مطلوب ،حالت ϕiبه ازای ) )i=1,2,..,Nبه حالت ϕ1می رود و در حالت ϕiبه ازای ) i=(N+1,N+2,..,2Nبه حالت ϕN+1تغییر می یابد .این اتوماتا برای پاسخ نامطلوب مانند اتوماتای L2N2می کند. ‏Learning Automata ‏N+1 ‏N+3 N+2 ‏N-1 N 2N 2N-1 3 2 1 ‏b=0 ‏ N failures are needed to have a state change 44 از 59 انواع اتوماتاهای یادگیر با ساختار ثابت change 45 59 از Learning Automata www.prozhe.com  N failures are needed to have a state انواع اتوماتاهای یادگیر با ساختار ثابت -4اتوماتای کرایلوف (:)Krylov ‏www.prozhe.com ای ن اتومات ا برای پاس خ مطلوب مانن د اتوماتای L2N2عم ل م ی کن د ،ام ا با مشاهده پاسخ نامطلوب از محیط با احتمال 0/5از حالت ϕiکه ( )i ≠1,N,N+1,2Nبه حالت ϕi+1و یا ϕi-1می رود. ‏Learning Automata 0.5 0.5 0.5 2N-1 N+2 N+1 0.5 2N 0.5 ‏N ‏b=1 46 از 59 0.5 ‏N-1 2 0.5 1 انواع اتوماتاهای یادگیر با ساختار ثابت  When Automaton encountered with a failure,Each ½. L2N,2 تغيير وضعيت مانند اتوماتون،زمانيكه پاسخ محيط مطلوب است .مي‌باشد b=0 47 59 از Learning Automata Φi-1 with probability ½ or to www.prozhe.com state Φi is changed to Φi+1 with probability اتوماتای یادگیر با ساختار متغیر ‏www.prozhe.com یک اتوماتای یادگیر با ساختار متغییر به صورت زیر تعریف می شود: }LA = {a,b,p,T,c که: • } a = { a1, a2,..., anمجموعه عمل ها، • } b = { b1, b2,..., bnم جموعه ورودیها، ‏Learning Automata • } p = { p1, p2,..., pnب ردار احتما لان تخابها، ادگیری ، • ]) T : p(n+1) = T[a(n),b(n),p(nا لگوریتم ی • } c = {c1,c2,..., crم جموعه احتما لهایجریمه. این اتوماتا احتمال های عمل خود را بر طبق پاسخ محیط آپدیت می کند. 48 از 59 اتوماتای یادگیر با ساختار متغیر ‏اگر عمل αiدر مرحله nانتخاب و محیط پاسخ مطلوب بدهد ‏www.prozhe.com احتمال افزایش و سایر احتماالت کاهش می یابد .اگر محیط پاسخ نامطلوب بدهد احتمال کاهش و سایر احتماالت افزایش می یابد. ‏Learning Automata ‏در هر حال‌،تغييرات بگونه‌اي صورت مي‌پذيرد كه حاصل جمع تمام ) pi (nها همواره برابر با 1است. 49 از 59 ويژگي‌هاي اتوماتاهاي يادگير ‏www.prozhe.com برای استفاده از اتوماتای یادگیر در یک کاربرد باید ویژگی های بنیادی اتوماتاهای یادگیر و طبیعت کاربرد را با هم در نظر گرفت. ‏Learning Automata . اتوماتاهای یادگی ر ب ا دارا بودن ویژگی‌های اس الید بع د به عنوان ابزار قدرتمندی در حل بسیاری از مسائل استفاده گردیده است. 50 از 59 ويژگي‌هاي اتوماتاهاي يادگير -1 اتوماتاهای یادگیر در شرایطی که هیچگونه اطالعاتی در دسترس نیست به خوبی ‏www.prozhe.com عمل می‌کنند. -2 اتوماتاهای یادگیر برای بهبود وضعیت خود در هر مرحله به یک بازخورد ساده از محیط نیاز دارند. -3 اتوماتاهای یادگیر به عنوان مدلی برای یادگیري در محیط‌های توزیع‌شده و چند ‏Learning Automata عامله با ارتباطات محدود و اطالعات ناقص بسیار کارساز هستند. -4 اتوماتاهای یادگیر در شرایطی ک ه عدم اطمینان وجود دارد دارای عملکرد خوبی می‌باشند. 51 از 59 ويژگي‌هاي اتوماتاهاي يادگير ‏www.prozhe.com -5 اتوماتاهای یادگیر عمل جستجو را در فضای احتمال انجام می‌دهند. -6 اتوماتاهای یادگیر ساختاری ساده دارند و به همین دلیل به سادگی در نرم‌افزار یا سخت‌افزار قابل پیاده‌سازی هستند. ‏Learning Automata -7 اتوماتاهای یادگیر دارای بار محاسباتی بسیار کم می‌باشند و به همین دلیل به سادگی در کاربردهای بالدرنگ قابل استفاده می‌باشند. 52 از 59 ويژگي‌هاي اتوماتاهاي يادگير ‏www.prozhe.com از طرف دیگر استفاده از اتوماتاهای یادگیر در کاربردهایی مفید است که یک یا چند خصوصیت زیر را دارا باشند: -1 کاربرد به اندازه‌ي کافی پیچیده و نامطمئن باشد به طوریکه یک مدل ریاضی برای آن موجود نباشد. ‏Learning Automata -2 کاربرد قابلی ت کنترل توزیع ی و مدل س ازی توس ط مجموعه‌ای از عامل های خودمختار را داشته باشد. - 3 سیگنال تقویتی یک متغیر تصادفی باشد و بر اساس معیار کارایی تولید گردد. 53 از 59 ويژگي‌هاي اتوماتاهاي يادگير ‏www.prozhe.com -4بهبود کمی در کارایی مورد نظر صرفه‌ي اقتصادی باالیی داشته باشد. -5الگوریتم قطعی برای کاربرد مورد نظر وجود نداشته باشد. ‏Learning Automata 54 از 59 محدودیت ها اتوماتاهاي يادگير ‏www.prozhe.com -1اتوماتاهای یادگیر از اطالعات اولیه‌ي کمی استفاده می‌کنند و اطالعات اضافی درباره‌ي محیط همیشه در اتوماتاهای یادگیر قابل استفاده نمی‌باشد. -2نرخ همگرایی اتوماتاهای یادگیر برای بسیار از کاربردها پایین می‌باشد. ‏Learning Automata -3اتوماتاهای یادگیر مدل های غیر متداعی می‌باشند. 55 از 59 اتوماتاي يادگير توزيع شده ‏www.prozhe.com اتوماتاي يادگير توزيع شده ( ، )DLAشبكه‌اي از اتوماتاهاي يادگير است كه براي حل يک مساله با يكديگر همكاري مي نمايند. تعداد اقدامهاي يك اتوماتا در DLAبرابر تعداد اتوماتاهاي يادگير متصل به اين اتوماتاي يادگير مي باشد. ‏Learning Automata انتخاب يك اقدام توسط يك اتوماتاي يادگير در شبكه ،اتوماتاي يادگير متناظر با اين اقدام را فعال مي سازد. 56 از 59 اتوماتاي يادگير توزيع شده ‏www.prozhe.com oمثال :اتوماتاي يادگير توزيع شده ( )DLAبا 3اتوماتا ي يادگير ‏Learning Automata 57 از 59 اتوماتاي يادگير توزيع شده ‏www.prozhe.com در شکل قبل هر اتوماتا يادگير داراي دو اقدام مي باشد. انتخاب اقدام توسط اتوماتاي يادگير فعال شده ،اتوماتا يادگير را فعال خواهد كرد. سپس يكي از اقدامهاي خود را انتخاب مي ‏Learning Automata كند كه در نتيجه آن يكي از اتوماتاهاي يادگير متصل به آن اتوماتاي يادگير كه متناظر با اقدام انتخاب شده مي باشد فعال مي شود .در هر زمان فقط يك اتوماتاي يادگير در شبكه فعال ميباشد. 58 از 59 اتوماتاي يادگير توزيع شده بطور رسمي DLAرا ميتوان توسط گراف که ‏www.prozhe.com مجموعه اتوماتاهاي يادگير و nتعداد اتوماتاهاي يادگير در DLAو مجموعه لبه‌هاي گراف مي باشد ،تعريف كرد. لبه اقدام jاتوماتا ي يادگير ‏Learning Automata كه اقدام jاتاماتای یادگیر ( را نشان مي دهد. زماني فعال خواهد شد انتخاب شود .تعداد اقدامهاي اتوماتاي يادگير ) برابر درجه‌ي خروجي گره متناظر با اتوماتاي يادگير 59 از 59 مي باشد. 59 از Learning Automata www.prozhe.com پایان
39,000 تومان