صفحه 1:
یادگیری تقویتی
destructor > Gueed Ghiqv
0 Mitchell Ch. 13
صفحه 2:
2 ایادگیری تقویتی
* در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از
طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی
بهینه را برای رسیدن به هدف انتخاب نماید.
percept Environment
ion
صفحه 3:
© ایادگیری تقوبتی
* یادگیری نقویتی از اینرو مورد توجه است که راهی برای
آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و
تنبيه است بدون اینکه لازم باشد نحوه انجام عمل را براى عامل
مشخص نمائیم.
دو استراتژی اصلی برای اینکار وجود دارد:
* یکی استفاده از الگوریتم های ژنتیکی است که در آن در فضای رفتارها
عملی جستجو میگردد که در محیط بتواند هدف مورد نظر را بر آورده نماید.
* و ديكرى استفاده از روشهاى آمارى و يوسم عامددمرك
در اين درس روش دوم مد نظر است.
صفحه 4:
22 امقایسه را با یادگیری با ناظر
© یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد:
© مثالهائی یادگیری بصورت زوج >ورودی/ خروجی< مطرح
نمیشوند. بلکه بعد از اينکه عامل عملی را انجام داد پاداشی را
دریافت میکند و به مرحله بعدی میرود.عامل هیچ گونه اطلاعی در
مورد اينکه در هر حالت بهترین عمل چیست را ندارد. بلکه اين
وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتهاء
عمل هاى ممكنء انتقال و پاداش جمع آوری نموده و عملکرد بهینه را
ياد بكيرد.
© تفاوت ديكر در اينجاست كه سيستم بايد كارائى آنلاين بالائى داشته
باشد. زيرا اغلب ارزيابى سيستم با عمل يادكيرى بطور همزمان
صورت می پذیرد.
صفحه 5:
نت
eo
مقایسه رااآ) با یادگیری با ناظر
Supervised Learning:
=
Example Class
Reinforcement Learning:
Situation Reward Situation Reward
صفحه 6:
یادگیری با ناظر
حنج (صعه) لصفو < و ومسا
صحف عجو"
oct vulput) - الجرنج أصرحم) - سس
صفحه 7:
evctvatios (“rewards” | “pecrties”) = ۵ ممصم
(سسه) صست سم
هدف: جمع کردن حداکثر پاداش ممکن
«هیچگونه اطلاعات مربوط به گرادیان خطا موجود نیست.
«حالت بعدی از روی عمل فعلی تعیین میشود.
یادگیری مبتنی بر سعی و خطاست.
صفحه 8:
5 مشخصه های اصلی یادگیری قویتی
© به يادكير كفته نمى شود كه جه عملى را بايد انجام دهد
٩ جستجو بر اساس سعی و خطا انجام ميشود. يادكير سعى ميكند
اعمالى را يادبكيرد كه بيشترين ياداش را توليد ميكنند.
© ياداش از نوع تاخيرى است: از اينرو دست آوردهاى كوتاه مدت
فداى مزاياى بلند مدت تر ميشوند.
© بايد بين كاوش موارد جديد و استفاده از دانش قبلى تناسب ايجاد
نمود. #وادوجج pr رورم
٩ مسئله را بصورت یک عامل هدفمند که با یک محیط نامعین در
ارتباط است می بیند.
صفحه 9:
* در یک مسئله را*6 استاندارد با اجزای اصلی زیر روبرو
هستیم:
٠ عامل
كه قرار است يادكيرى را از طريق تعامل با محيط انجام دهد. برا
يذكار بايد
* اعمالى كه عامل ميتوائد در محيط انجام دهد مشخص باشند.
* محیط
برای محیط باید مشخصه های زیر تعیین شوند:
Action
* ياش
عامل ميتواند از طريق وروديهايش تشخيص دهد كه در جه
وضعیتی قرار دارد. عامل در وضعیت ,9) عمل ع را
انجام میدهد. اینکار باعث میشود وضعیت محیطربه 8
اتغيير نمايد. در اثر اين تغيير وضعيت عامل سيكنال
سس و یا پاداش ,درا از محیط دریافت
می نماید.
عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واق
نکشتی از وضنعیت به حل لس بهتهری كد لتقف أ
این سیاست برای انتخاب اعمال منجر به دریافت پاداش
حداکثر از محیط گردد.
ساختار کلی مسئله یادگیری تقویتی
AGENT
ENVIRONMENT
State/
Situation s 5
Reward 1
a. (5, a) =Prf, =als, =s} 5
صفحه 10:
* در ,ا«)عامل يادكير بطور سعى و خطا با يك محيط بويا دركير شده و
ياد مى كيرد كه براى هر موقعيت جه عملى را انجام دهد.
© اين محيط بايد قابل مشاهده ويا حداقل تا قسمتى قابل مشاهده براى عامل
(portialy obeervable) Sl:
مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور؛
توضیح سمبلیک و غیره باشد.
٩ در حالت ایده ال عامل باید بطور کامل قادر به مشاهده محیط باشد زیرا
اغلب تنوریهای مربوطه بر اساس این فرض بنا شده اند.
صفحه 11:
محيط
٩ محیط مجموعه ای از 8) حالت ممکن است.
* در هر لحظه ؛ عامل میتواند یکی از 69 عمل ممکن را انجام دهد.
6 عامل ممکن است در مقابل عمل وربا مجموعه ای از اعمالی که از
را دریافت کند. این پاداش ممکن است مثبت 4
(ars herent) Aldo SR a (ase ۰ )58 یعنی انجام یک عمل مشابه
در یک وضعیت یکسان به وضعیت بعدی یکسان و یا مقدار پاداش یکسانی منجر نشود.
* با اين وجود محيط بصورت ,بهم فرض ميشود. يعنى احتمال تغيير وضعيت و يا دريافت
پاداش در طول زمان یکسان a ايد
Nay
Ty, Ts +
و5 ... 55 54 53 52 51
a
و . ... و8 يق وق و8 ب8
صفحه 12:
$8 ارفتار عامل
* عامل در محیط حرکت کرده و حالتها و پاداشهای مربوطه را به خاطر
می سپارد.
© عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نماید.
1-5 3+
لمر ”م
cede Lake ele
و5 ... 55 54 و5 82 ر5
32
a, a, و8 a, a, .., ag
صفحه 13:
The QetPorcewed Cuaiod
#در dle GERD در یک حالت خاص عملی را انجام میدهد»
در مقابل ياداش (وجمجحصص“*اوادم عس لسوررص) دريافت
ميكند. در اين سيستم عامل وظيفه دارد تا ياداش دريافتى در
دراز مدت را حداكثر نمايد.
ار اح Ry pias ریک یک
وصادوى ا امجح نابج بمناسب با اهداف عامل است. اينكار
به طرق مختلف انجام ميشود.
صفحه 14:
پاداش
© اگر دنباله ای از پاداش ها بصورت زیر موجود باشند:
Tas Ta Ting.
عامل بايد سعى نمايداتا ياداشى'را كه از محيط دريافت ميكند خد اكش 6
E{r} نماید. در واقع امید ریاضی پاداش را به حداکثر میرساند.
© در بسیاری از مسایل تعامل با محیط بصورت اپیزودی انجام میشود.
مثلا روباتی که قرار است خروج از اتاق را یاد بگیرد به محض
خارج شدن از اتاق یک اپیزود یادگیری خاتمه می یابد. لذا کل پاداشی
که با شروع از یک حالت ,9) و رسیدن به حالت نهائی ( خاتمه اپیزود
یادگیری) ,9) بدست می آید برابر است با:
17 +... + لجرت إل
صفحه 15:
أذ در نظر گرفتن پاداشهای آینده
۶ اگر پاداش ٩ مجموع پاداشی باشد که عامل با شروع از زمان؛
ماد جمم كند بد حرق مكتلقك ميتوان اين مادا ۱۱ ساره capa
یک راه بصورت زير است که در آن به پاداشهای نزدیکتر ارزش
بیشتری داده میشود.
R=raty Tint ¥ Trot =, VYtum د
+3 5
Sf
YT, Ty, Ts To
R=3+... Yl (1+... 0 ۳
صفحه 16:
مدلهای عملکرد بهینه
۶ یکی از نکات مهم در انتخاب عمل نحوه لحاظ کردن رخداد های آ
عامل است. برای اینکه یک عامل بتواند تاثیر رخدادهای آینده در
برای حالت فعلی را در نظر بگیرد مدلهای مختلفی پیشنهاد شده است:
؟ مسا Piette
ساده تین مدل این است که عامل برای انتخاب عمل مقادیر پاداشی را که در با مرحله بعد
یگیرد محاسبه نموده و عملی را انتخاب نماید که مجموع پاداش را حداگثر نماید.
h
ViQ=2 Tax
fePtaite hora (discounted muxmutative reward) ©
در اين روش بجای :| مرحله» پاداش درازمدت دریافتی در نظر گرفته میشود. اين روش
بسیار مرسوم بوده و به پاداشهانی که در آینده گرفته خواهد شد ارزش کمتری نسبت
به پاداشهای فوری داده ميشود.
oxy <1 عجر زط دشيور أرخمير ۱۵
صفحه 17:
مدلهای عملکرد بهینه
reward & موه
در اين روش فرقی بین پاداشهای نزدیک و دور در نظر گرفته نميشود.
V(9)=lim..53 rn
spe py
تب بر
1) Finite horizon, n=
SMe Mee?
| OO0-0-09
Infinite horizon, y=0.9
1
سي م سم
©9999
Average reward igs
صفحه 18:
و اخط هشتی دا تسناستت:
٩ فرض می کنیم که اعمال عامل از قانونی مثل 77 تبعیت میکند
كه آنرا خط مشى و يا eel cx policy
0 از آنجانیکه )٩ یک متغیر تصادفی است لذا اميد رياضى آن
تحت یک خط مشی خاصن و برای یک حالت معین براير
خواهد بود با:
| 8( و وه vs)
هدف یادگیری تقویتی این است که یک خط مشی بهینه ای مثل
* بيدا نمايد به نحويكه مقدار اميد رياضى فوق را براى تمامى
حالات ماكزيمم كند.
صفحه 19:
پادگیری خط مشی با سیاست
Policy at step t. 7, :
a mapping from states to action probabilities
7,(s.a) = probability that a, = a when s, = s
© در واقع ,اه) سعى دارد عامل را وادار كند در اثر تجربه با
محيط سياست خود را تغيير داده و طورى رفتار نمايد كه در
دراز مدت ياداش بيشترى كسب نمايد.
صفحه 20:
الگوریتم کلی یادگیری تقویتی
جلمد أمجسجها ى مها عطاهو|»
Op Porever (!?):
Observe vored stite =
Choose uniive 7 usiey sowe euotvaiod یط
Cxevute urticd 7
۱۳ reward, 5’ cew state
Opdate fotercd state based pa 50,55"
۲
a
صفحه 21:
برخورد میله با زمين
يك ابيزود يادكيرى با افتادن ميله خاتمه يافته و بايد پیزود بعدی را شروع نمود.
reward = + Por each step bePore Poke
میم < مار of سا سوه (>
صفحه 22:
:* ابرخی کاربردهای برتر یادگیری تقویتی
© باعل له من( Peso, Ook
player ماما با وللو() و
© Clevator Ovatrol Cries & سوه
© (Probebl)) world's best douse pedk elevator ام
©» Uob-Skhop Scbkeduticgy سا 6 مان
© Work!’s best schedler of space-shutle مودصم لمجايدم
Opeeavic Chancel Ossinrect Grn & Bertschos, Die & 5
روا
اس سرا ارام با ان ول اه میت سا لبون و
ee
صفحه 23:
ee فرق پاداش و هدف
٩ آیا یک سیگنال عددی میتواند نشاندهنده دقیقی از یک هدف
باشد؟
٩ _ممکن است نباشد! اما در عمل بطرز شگفت آوری خوب عمل كرده
اسث,
هدف باید خارج از کنترل عامل باشد.
هدف باید آنچه که میخواهیم به آن برسیم را مشخص نماید و
اطلاعاتی در مورد نحوه رسیدن به آن را نداشته باشد.
© عامل بايد قادر به اندازه گیری میزان موفقیت خود باشد.
صفحه 24:
0 ووس 1۳۷) سنسمن Be
یادگیری تقویتی با ترکیب تکنیک هر م() ©
مس )با یادگیری با کمک ناظر به حل مسئله
میپردازد.
er
صفحه 25:
Opens proyrawwicy
© بطور کلی کاری که رس عنسمیی) انجام میدهد عبارت
است ازحل یک مسئله چند متغیره از طریق حل مجموعه ای مسائل تک
opie
© مبناى بجر بر پایه اصل بهینگی مجملو9) بنا
شده است
oF Optazaly © 0 ماو الاك
این اصل بسادگی بیان میکند که یک خط مشی بهینه باید داراى اين خاصیت
باشد که بدون توجه به حالت اولیه و تصمیمات اولیه گر فته شده؛ باقی
تصمیمات باید با درنظر گرقتن حالت ایجاد شده از تصمیمات اولیه به
es
صفحه 26:
)1( 7 2۲7
۶ در واقع وجنسممصبسسر حوممس(0 روشی است که برای حل
یک مسئله از آخرین حالت ممکن شروع کرده و آنچه را که
در آن حالت امکان پذیر است بررسی مینماید» سپس با استفاده
از اطلاعات بدست آمده از فرض بودن در آخرین حالت به حل
حالت ماقبل آخر میپردازد و اینکار برای حالت های قبل از آن
ادامه می یابد.
صفحه 27:
خاصیت مارکف
© وضعیت مرحله 9 تمامی اطلاعات لازم را در اختیار عامل قرار میدهد.
یعنی عامل به اطلاعات دیگری نیاز ندارد.
© بعبارت دیگر قرار گرفتن در یک وضعیت به معنای داشتن خلاصه گذشته
عامل است و نیازی نیست تا از گذشته آن چیز دیگری بدانیم.
© نمايش یک وضعیت میتواند شامل ورودیهای فوری» ورودیهای پردازش شده
و یا ساختارهای داده ای باشد که در طول زمان از روی ورودی های حس
شده تشکیل شده باشند.
-1 ۲ ۲ مومع x ghia سک
حل وک دواد QM Sp 42 Or برك | 7 = Pr Sea = Sha
مرح عو فود |
و وگ هورگ1 .6و5 قعللهاعنط مضه .7 :5 له نم
ee
صفحه 28:
Qarhov Oecisiog Processes
اگرایک مسئله یادگیری نقویتی دارای خاصیت مارکف باشد مبتوان آنرا *
یک (2006)) عووس<) مسصو() روطلی() دانست.
۴ )2000* اگر تعداد حالت ها و عملها محدودباشند مسئله بصورت ©
خواهد بود که با اجزای زیر تعریف یشود:
۶ اوه مرت لو وب
* dePiced by trowstion probabil /=(S_4, PR}
6 arb a As)
a م
= | $,= 5.0, < a} for all s,s’
reward 3
Ri = Eh, = 5,0, = ميقع “,د له دم و مدق € Als)
صفحه 29:
Oearkov Oevision Processes
(ODPs)
٩ در مسائل DOP با شرایطی مواجه هستیم که عامل میتواند 9) حالت
مجزا را درمحیط تشخیص دهد.این عامل قادر به انجام 9 عمل مجزا
© در هر لحظه ؛ عامل حالت « را تشخیص داده و عمل و را انجام میدهد.
9 محیط در پاسخ به این عمل پاداش (ه,<)< را به عامل میدهد و به
حالت بعدی (»,ح)۵بپد میرود.
۶ توابع ۵ , جزئی از محیط بوده و برای عامل ناشناخته هستند.
© در 000005 توابع فقط به حالت و عمل فعلی بستگی داشته و از حالت
وعمل های قبلی مستقل است.
صفحه 30:
®u عم Piette OOP
Recycling Robot
© Gieak step, robot hes to ceoide wheter i shoud (0) tel seack Poo cos,
(CG) wal Por sowever ذا bres ta co, oy (8) 9a howe base ما لت
۶ ۵ beer bude ی ۱ اور oP رو bie
seerchtery, hes 7 be rested (wick ts bord).
© Oevisices wade va basis oP purred roery level: high, Low.
© Reward = auwber oP coc ovlevted
ow
صفحه 31:
Revpoleay ®vbot DOP 0
|S = {high, low} Re" — expecteduno, of cans while searchmg
A(high) = jsearch, wait} R= expectedno. of cans while waiting
4(Low) = {search wait, recharge} pessoa pease
1B, ف
1, rate
سور و
wait
aL, Reece Ta, Revere 1, 2
صفحه 32:
Opec Proqgraneicry
9 در واقع 00) روشی براى حل مسايل 000005 است.
© ابن روش نیازمند دانستن نینامیک کامل سیستم است. () لب ۳)
* پیاده سازی آن پرهزینه و معمولا غیر عملی است
۶ با مشکل نفرین ابعادی روبروست
* تضمین شده که همگرا خواهد شد.
آن راا) را یک تقریب ula OP oly ba
نیازی به دانستن )٩,)۳ ندارد
* در فضای حالت به نمونه برداری میپردازد.
© تئوریهانی در مورد همگرائی آن وجود دارد.
ee
صفحه 33:
صفحه 34:
صفحه 35:
صفحه 36:
GO, chowes lewd to
viher GO, GP, 3 GP.
GP was picked
(ancl)
وبهب-_-«
صفحه 37:
صفحه 38:
صفحه 39:
صفحه 40:
صفحه 41:
Dent tere GS ts
reuched, port oF ie
SSUCKIIVE strech iF
posed buck to OF...
صفحه 42:
صفحه 43:
ی OS وب لد
صفحه 44:
صفحه 45:
صفحه 46:
!£ ایادگیری خط مشی
9 اگر چه هدف نهانی یادگیری تقویتی یادگیری تابعی بصورت
00-:7۳ است با این وجود در عمل انجام آن بسیار مشکل
است زیرا مثالها بصورت <ب,ج> عرضه نمیشوند.
© برای یادگیری خط مشی از دو تکنیک زیر استفاده خواهیم کرد:
۶ مسمه عون
۶ موه و
6م
صفحه 47:
Oude (Pucrtion
٩ مقدار یک حالت عبارت است ازمجموع مقدار پاداشی که با
شروع از آن حالت و پیروی از خط مشی مشخصی که به حالت
نهائی ختم شود» دریافت میگردد.
٩ تابع مقدار یا موسی<) ساه() عبارت است از نگاشتی
Law gi all sie 4S state volues 44 states J! هر تقریب زننده
تابع نظیر یک شبکه عصبی تخمین زده شود.
we
صفحه 48:
alle (OL DD یک مسئله
ale © دارای 6 عمل مختلف است: حرکت به چپ به راست»
به بالاو به يائين
© ياداش براى تمامى حركتها برابر -) است.
© هدف رسيدن به دو كوشه سمت راست يائين و يا كوشه سمت
جب بالاست
© مقادير نشان داده شده مقدار مورد انتظار براى هر حالت در
صورت انجام يك حركت تصادفى براى رسيدن به هدف است.
م
صفحه 49:
# در شکل مقابل مقادیر بهینه حالتها نشان 91
داده شده است.
9 در صورتی که امکان بدست آوردن اين
مقادیر وجود داشته باشد میتوان با انجام
یک جستجو به ,رام امین نیز دست vee Powis ۱۳۲۲
یافت.
٩ در یادگیری تقویتی بجای یافتن خط مشی
بهينه كه مدل کردن آن میتواند مشکل باشد»
میتوان تلاش نمود تا مقدار تابع بهینه حالتها
Phe opted pokey pce
eo
صفحه 50:
صفحه 51:
Opproxtwuttay the Odue (uariiod
* یادگیری نقویتی میتواند کار بسیار سختی باشد زیرا عامل در مقابل کاری که انجام میدهد
پاسخ مستقیمی در مورد درست یا نادرستی آن دریافت نمیکند.
برای مثال عاملی که میخواهد از طریق شبیه سازی یک هواپیما را هدایت نماید در هر
لحظه مجبور است تا تصمیم جدید بگیرد و اگر بعد از هزاران عمل هواپیما سقوط نماید؛
عامل چگونه میتواند عملی که به سقوط هواپیما منجر شده را شناسائی نماید؟
در اینجا پمسوس۳) منیجمم() با معرفی دو اصل ساده سعی در ارائه راه حل
مینماید:
اگر عملی انجام شود که بلافاصله منجر به نتیجه بدی نظیر سقوط هواپیما گردد عامل
بايد ياد بكيرد كه در دفعات بعدى در حالت مشابه آن عمل را تکرار نکند. لذا عامل باید
از عملی که بلافاصله قبل از سقوط هواپیما انجام داده بود پرهیز کند.
اگر عملی در یک موقعيت خاص منجر به نتيجه ى شدء بايد از قرار گرفتن در آن
موقعيت يرهيز نمود.بنا بر اين اكر قرار كر
سقوط هوابيما ميشود. عامل ياد ميكيرد كه از
هوابيما در جنين شرانطی میگردند پرهیر نماید.
صفحه 52:
Tre Esseuwer vP Opannic
دودو بت
& هدف ازبكار كيرى يوس :ة) اددج ,00 در يادكيرى تقويتى
محاسبه تابع مقدار است. روش كلى انجام اينكار بصورت زير است:
vohue Puccio انم -(8) *0 *
00 ا ف نا
Pastor ما
(G) Gs alls 52 © با مقدارى تصادفى عدد دهى ميشود كه با مقدار
بهينه فرق 0 در نتيجه خطائی در تقریب بروز کرده ورابطه زیررا
خواهیم داشت.
(۶)۵ +(۵)* 0۵ <(۵) ۵
# این رابطه برای حالت بعدی نیز صادق خواهد بود
٩۵ ۹۵, ۶۵,0 <(,6) ۵
ee
صفحه 53:
@ekvoa Poviog
9 با توجه به تعریف تابع مقدار بهینه رابطه بین مقادیر لد
در حالتهای مختلف را میتوان توسط وهو اع 8)
Olsequatiod کرد:
V(x) =x) tw *(X)
٩ با بسط اين معادله به مقدار تابع تقریب زده شده خواهیم داشت:
VX =X + WO)
e(X, FV *(x,) = 70K, + YC) +V * Xp)
*(X,) = 1(X,) +O + W "OX ) باه
e(X,) = 7e(X,41) 5
صفحه 54:
@ekvoa Patio eo
© اهمیت رابطه فوق در اینجاست که اگر خطا در مرحله نهائی
یعنی وقتی که به هدف میرسیم صفر باشد» در صورت انتخاب
خط مشی بهینه خطا در مراحلی که منجر به مرحله آخر
میگردد نیز تابعی از آن بوده وصفر خواهد شد.
(X,) = OX)
1 a es
G@++@++@+-@)
صفحه 55:
Ove @uaniiva تقریب تابع ss
* اگربتوان مقادیر تقریبی (6* را توسط یک جدول نشان داد» در
اینصورت میتوان برای بدست آوردن آن اين جدول را جاروب
نموده و بطور مدام مقدار حالتها را طبق رابطه زیر تغییر داد.
ی( ,)0۵ ۵
© اینکار تا زمانی که تغییری در جدول رخ ندهد تکرار میشود.
* برای انجام چنین عملی مدل دینامیکی سیستم لازم خواهد بود.
es
صفحه 56:
*؟ ابدست آوردن سیاست بهینه
۶ با یادگیری مقادیر میتوان از آن برای جستجوی بهترين عمل
استفاده نمود.
x’(s) =argnaxi(s,a)+ WV (6(s,a))}
© لازمه اینکار دانستن تابع 8 و مقدار م است. که در حالت
کلی برای ale ناشناخته هستندو انتخاب عمل را مشكل
میسازند. لذا باید از تکنیک های دیگری استفاده نمود.
هه
صفحه 57:
oe
Residual Bradicat O@kyorikws
دیدیم که چگونه میتوان تقریب تابع را از طریق جدول انجام داد.
استفاده از جدول محدودیتهائی را از لحاظ اندازه و پبچیدگی مسائل قابل
حل بوجود میاورد.زیرا بسیاری از مسایل عملی دارای فضای حالت
بسیار بزرگ و یا پیوسته هستند که نمیتوان مقادیر آنها را با جدول نشان
داد
در چنین مواقعی میتوان از تخمین زننده ای استفاده نمود که قابلیت تعمیم
داشته و قادر به درونیابی حالتهائی باشد که مشاهده نشده اند.
برای مثال شبکه عصبی میتواند برای تخمین مقدار (9))* () بکار رود.
صفحه 58:
استفاده از شبکه عصبی یرای تخمین تابع
مقدار
* اگر تقریب (69)* ۵ را با (,0) ) نشان دهیم که در آن ,0)
بردار پارامترها باشد در اینصورت برای تغییر اين پارامترها میتوان از
رابطه زیر استفاده نمود.
21 5 2
سیر ی Aw, =-a{ max(r(x,.u)+7)
ow, 1 ۲
7
مقدار كراديان خروجى شبكه عصبى <١ خروجى مطلوب نرخ يادكيرى
* از آنجانیکه خروجی مطلوب نیز تابعی از ,() است با تغيير بردار
پارامترها خروجی نیز تابعی از این مقدار جدید شده و اين احتمال وجود
خواهد داشت که مقدار امسلنویر موسبلو) کاهش نیابد.
هه
صفحه 59:
Residual Bradicat O@kyorikws
© يك راه حل اين مسئله استفاده )5 revicksal yrodivat S355
ناه است که در اینصورت برای تغییر پارامترهای
شبکه از رابطه زیر استفاده میشود:
9۷ _ (,۱۷,ربیط) 101
Aw, بر + WV (XW) V(X, (| ow ae
t
ween squared 65) 2 yrodicdt در اين الگوریتم موی ۶
te eul@ekwad residual
هه
صفحه 60:
64 [Oaks 1909] se
۶ ,مد حالت گسترش یافته الگوریتم مها Ocha
است که برای مسایل حوطس نیز بکار میرود.
© یادگیری ,0-9 نوعی از یادگیری تقویتی بدون مدل است
که بر پایه برنامه ریزی پویای اتفاقی عمل میکند.
en
صفحه 61:
64
* در یادگیری ,سور ) بجای انجام یک نگاشت از عس9) به
مقادير حالتهاء نگاشتی از زوج «اس/صهبه به مقادیری که سادر6
نامیده میشوند انجام میگردد.
© م6
۶ به هرزوج > حالت » عمل< یک مقدار (3)5,0) نسبت داده میشود. این مقدار
بارت است از مجموع پاداشهای دریافت شده وقتی که از حالت 3) شروع و عم
را انجام وبدنبال آن خط مشى موجود را دنبال کرده باشیم.
© تفاوت ا au اینجاست که نیازی به انجام تمامی ۱ ن یک
اوت اين روش > یازی ام تمامی
حالت نيست.
صفحه 62:
الگوریتم یادگیری 6
© براى يادكيرى تابع © میتوان از جدولی استفاده کرد که هر ورودی آن
يك زوج <ه,ج> به همراه تقریبی است که یادگیر از مقدار واقعی 6
بدست آورده است.
* مقادیر اين جدول با مقدار اولیه تصادفی ) معمولا صفر( پر ميشود
۴ عامل بطور متناوب وضعیت led ) را تشخیص داده و عملی مثل »
را انجام میدهد. سپس پاداش حاصله (,ج) و همچنین ata Cilla ناشی
از انجام عمل(ه,ج)۵<"و را مشاهده میکند.
۶ مقادیر جدول با استفاده از رابطه زیر تغییر میکنند:
1(sa)+ymaxds. a) جرج
صفحه 63:
hi OOP الگوریتم یادگیری برای
موجه ی مادعا ادها مر Por ewk و
© Obsenve او سس عا >
© Ov Porever:
۱ goed exerute it
reveive koxvedate reward عر
Observe the vew states” *
verte fe tbe در (S.@)Pobowe
Asa< 1(5a)+ymaxds a)
"وی
صفحه 64:
© دراين مثال
© مقادير 9© هرعمل/حالت در
كنار آن درج شده است
٩ با هر حرکت عامل به سمت
راست پاداش صفر به آن تعلق
a
۶ اگر عامل از حالت « شروع
کرده و به سمت راست حرکت
کند مقدار جدید ) برابر است
Asa 1sa+ymaxds, با: ام
2
0- 0+0 0
Ou 90
or
aod
64
aod
ea
اه
5
صفحه 65:
20
] values v7Gs) values
One optimal policy
صفحه 66:
* از آنجانیکه در محیط یک حالت هدف جذب absorbing state 8S در
نظر گرفته میشود که با قرار گرفتن عامل درآن حرکت عامل متوقف
میشود» عمل یادگیری بصورت اپیزودی انجام ميشود.
* در هر اپیزود عامل در یک محل تصادفی قرار داده میشود و تا رسیدن
به حالت جذبی به تغییر مقادیر 6 ادامه میدهد.
* اگر مقادیر اولیه 6 صفر در نظر گرفته شده باشند. در هر اپیزود فقط
یکی از مقادیر که به مقدار نهانی نزدیکتر هستند تغیبر کرده و بقیه صفر
باقی میمانند.
© با افزايش تكرار اييزود ها اين مقادير غير صفر به سایر مقادیر جدول
كسترش بيدا كرده و درنهايت به مقادير بهينه همكرا خواهند شد.
صفحه 67:
:؟ ااثبات همگرائی
٩ فرض های لازم:
.0
ee
tel deterxvicisic DDC Lass
پاداش های فوری محدود هستند|>|(,۳)2:
عامل تمامی حالت/عمل های موجود را بینهایت بار امتحان
میکند
ايده اصلى:
اثبات ميشود كه ورودى با بيشترين مقدار خطا در جدول ©با
هربار بازديد به نسبت ب از خطاى آن كاسته ميشود.
صفحه 68:
aaa aye آینکه تامی حملبخلتها زینه یت پار تکرزار واه
شد» اگر فاصله ای را در نظر بگیریم که هرکدام حداقل یکبار
تکرار شده باشند» در اینصورت خطا در مرحله ب ام تغییر
مقدار جدول برابر است با: 1
A,=max As a)- Asa)|
٩ مقدار خطا در مرحله 0+0 ام تغيير برابر خواهد بود با:
|((8,2) تميس رمم )| (r+ ymax0,(s, a) ع9 -9 ع9
=ylmar0,(s,2)- mar0,(s, a)|
<ymayQ,(s,4)- 0,)8,2( | ۳
A,
صفحه 69:
* برای اینکه شرط همگرائی برقرار باشد باید هر عمل/حالت
بینهایت بار تکرار شود.
* در یادگیری:) معمو لایرای انتخاب عمل ها از یک رابطه
احتمالاتى استفده میشود که در آن عمل های با مقاذیر با با
احتمال بیشتری انتخاب ميشوند.
Hald= احتمال انتخاب عمل > وقتى عامل در
era
حالت ج است 5, Ke a)
(1<0_ابتیلستکه میزانار جحیتصلهایب | مقدار بزرگ را مشخصمیکند.
مقادیر بزرگب! منجر به استفاده از دانش آموخته شده میگر ددهرامورج
og مقادیر کوچک به بقیه عمل ها شانس بیشتری میدهد. رورس
صفحه 70:
:؟ ایادگیری ) برای orbit OOP
© در يك سيستم ©000() جود مص انجام يك عمل مشخص
در حالت 9) همواره به حالت بعدی یکسان ,,9) منجر ميشود.
* در حالیکه در یک <0006) تسیل مس از یک تابع
توزیع احتمال برای تعیین حالت بعدی ناشی از انجام یک عمل
استفاده میشود.
#در چنین حالتی توابع (8)2,0 و (0,<) دارای توزیع احتمال
بوده و بر اساس آن خروجی تصادفی خواهند داشت.
صفحه 71:
*؟ ایادگیری برای 2000) غیرقطعی
# برای حالت غير قطعى تابع ) بصورت زير بازنویسی میشود.
Asa=Ex(sa)+ys As|sa)maxds a
a
در چنین حالتی نیاز به قانون جدیدی برای یادگیری خواهد بود *
زیرا قانون قبلی در صورت تصادفی بودن مقادیر جر قادر به
همگرائی نخواهد بود.
صفحه 72:
:؟ ایادگیری برای hie ODP
* برای رسیدن به همگرائی از قانون زیر استفاده میشود
قا ,تسر لمعا رع +20 5)ر م (رى -0) -(۵ 9
1 ol ase
On “Te visits a)
در اين رابطه visite (v0) برابر است با مجموع دفعاتی که
زوج (ه,< ) مورد استفاده قرار گرفته اند.
۵
صفحه 73:
Tewpord ساوح( se
یادگیری ) حالت خاصی !5 Dewoporel SSL ay Sl
ها مرو( است.
»در يادكيرى © از اختلاف بين مقدار حالت فعلی و حالت بعد
از آن استفاده ميشد. اين امر را ميتوان به اختلاف بين حالت
فعلى و جند حالت بعدى تعميم داد.
© اكر الكوريتم يادكيرى © را بصورت زير نشان دهيم:
)0 5, جك ره + ymaxQs,.,a)
تعميم رفته در( ميتوان لسرت ير شان لا este
)عر ميك ال تقطط ”رج يجنا "مرج + هجوت (ع 2 (
0
صفحه 74:
الگوریتم (۳۵06»
* در اين الگوریتم سعی میشود تا با معرفی ثابت(2< 2,>20
تخمین حاصله از فواصل مختلف را با هم ترکیب نمود
Os.a)=0- | Os,a)+2 05.042 Ols,a)+.|
٩ اين الگوریتم را میتوان بصورت بازگشتی زیر نوشت
9
# برای حالت 2:50 اين الگوریتم برابربا الگوریتم یادگیری 6
خواهد بود.
هریج ۵ 2+( ,مهرد -)
0
صفحه 75:
الگوریتم (۳۵06»
و درا مسانل استاده ۰ ۲
ر برخی از مسائل استفاده از این روش میتواند سرعت
یادگیری را افزايش دهد.
صفحه 76:
کیب شبکه عصبی با یادگیری 6
9 در مواقعی که امکان ذخیره مقادیر )در جدول وجود نداشته باشد»
میتوان یک تابع تقریب زننده نظیر شبکه عصبی را جایگزین اين جدول
نمود.
© برای مثال میتوان مقادیر ه,و را بعنوان ورودیهای شبکه عصبی
درنظرگرفته و شبکه را طوری آموزش داد که مقادیرتقریبی 6 را در
خروجی ایجاد نماید
* دربرخی کاربردها استفاده از یک شبکه عصبی جداگانه برای هر یک از
عمل ها مفید بوده است.
٩ باید توجه نمود که در صورت استفاده از شبکه عصبی احتمال عدم
همگرائی وجود خواهد داشت.زیرا تغییر در مقادیر وزنهای شبکه در
هنگام یادگیری میتواند منجر به افزايش خطا در مقادیر ) گردد.
صفحه 77:
:؟ |مسايل مطرح در یادگیری تقویتی
یادگیری تقویتی با دو چالش عمده روبروست:
© چگونگی توسعه به مسایل بزرگتر
امکان استفاده در مسایل panttaly-pbservable Darko
devisiva که در آنها عامل قادر به درک کامل محیط نیست
صفحه 78:
22 سیستمهای بزرگ
# وقتی که سیستم خیلی بزرگ میشود. یادگیری ) قادر به نمونه
برداری از تمامی زوجهای عمل/حالت نخواهد بود.
٩ در چنین حالتی از دسته بندی کننده ها و ترکیب آنها با
الگوریتمهای ژنتیک استفاده میشود
© استفاده از شبکه عصبی برای تقریب تابع در چنین حالتی عملی
نبوده و معمولا از روشهای رگراسیون دیگری استفاده ميشود.
صفحه 79:
قابل بیان باشد» استفاده نمود.
٩ برخلاف یادگیری با ناظرنیازی به زوج ورودی/خروجی ندارد
در صورت ترکیب با شبکه های عصبی میتواند مسایل زیادی
را حل کند