صفحه 1:
fobolab:
ارائهی چارچوبی برای یاد گیری کنترل توجه
در وظایف با فضای ادراکی چندبعدی
مریم سادات میریان
اساتيد راهنصا: دکترمجید نیلی, دکتر بابک نجار اعرابی
صفحه 2:
صفحه 3:
00011 فهر ست مطا لت
* مقدمه
* اهميت و انكيزه
7 پرداختن به کنترل توجه (در حالت کلی)
پژوهش (به طور خاص)
نوآوریها در قالب یک شبکهی مفهومی با گذار از حوزههای مرت
پیشنهادی
تحقق در حوزهی برخط
چارچوب
<- تحقق در حوزهی بر
جمعبندی و نتیجهگیری
پیشنهادهایی برای ادامهی این پژوهش
صفحه 4:
robolab' مقدمه: کنترل توحه جیست؟
* روانشناسی
- کنترل نمودن روند تفکر بر یکی از چندین موضوع یا شیتی که به طور
همزمان ممکن است ذهن را مشغول نماید.
- بریدن از چیزهایی برای پرداختن موثرتر به چیزهای دیگر.
متسین
فیلتر نمودن فضای ورودی به گونهای که بر چیزی که در فرایند تصمیمگیری
ارزش بیشتری دارد. متمرکز شویم.
- ایجاد ارزش/اهمیت کمتر برای ورودیهای گمراهکننده» غیرقابل اتکاء و
نويزى
صفحه 5:
Be اهمیت پرداختن به کنترل توجه
* هرجا نیاز به تصمیمگیری
— در زمان محدود
7 با هزینهی مشخص
> بر اساس اطلاعات انبوه
باشد نیاز به روشی است که به نوعی از میان منابع اطلاعاتی موجود.
زیرمجموعهی مناسبتر را برگزیند.
* تعابیر متفاوت ولی مرتبط به توجه در مهندسی:
- يالايش یا فیلترینگ
- انتخاب حسگر
7 کاهش بعد
sont
صفحه 6:
Be اهمیت و انگیزهی کنترل توجه ادراکی
fobolab: (در حالت معمول)
* حل مشکل محدودیت زمان و توان پردازشی
۰ حل مشکل پیچیدگی فضای حاصل از ادراک همزمان تمامی ابعاد
سنسورهای ورودی
* حل مشكل ابهام به دلیل اطلاعات انبوه سنسوری
* راهى برای کارآمدتر نمودن حل مسئلهی تصمیمگیری
- کاهش بعد فضای ادراکی ربات
کاهش نیاز به حافظه برای ذخیرهی مشاهدات غیرضروری
- سادهتر شدن مدلی که ربات برای انجام وظیفه باید از محیط بسازد
صفحه 7:
و اسبت ری بادگیریکترل توب
fobolab:
(در حالت معمول)
* اينكه ”به چه/کجا نگاه کنیم؟" و اينکه "در پاسخ به مشاهدهی
انجام شده. جه كنشى انجام بدهيم؟“ به يكديكر تافته شدهاند.
زیرمسئلهی اول در خدمت دومی است! (با مدف تسهیل و کاهش بار مسئلی دوم)
iit) G2
> سم
look?
صفحه 8:
Be اهمیت 3 انگیزهی اين پژوهش:
۳ یادگیری کنترل توجه در فضای تصمیم
* اينکه "با چه کسی مشورت کنیم؟" و اینکه "در پاسخ به مشورت
دریافتی, چه کنشی انجام بدهیم؟" به یکدیگر تافته شدهاند.
مشورت ها به صورت ترتیبی انجام میشوند.
- سطوح و ناحیهی خبرگی ها متفاوت هستند.
4 i
What to do? ۷۵۰ ed
ل
صفحه 9:
3 ایدهی اصلی چارچوب
* تقسیم مسئلهی اصلی به زیرمسئلههای یادگیری
کوچکتر و سپس یادگیری نحوه برهمنهی نتایج:
* یادگیری انجام وظیفه در زیرفضاهای ادراکی سادهتر به
صورت موازی توسط ماشینهای یادگیر سادهتر
* یادگیری کنترل توجه با تعبیر یادگیری مشورت با همین
ماشینهای Sok سادهتر در فضای تصمیم
4
صفحه 10:
1 ياد كيرى در فضاى ادراكى جندبعدى AP
۲ robolab
(در حالت معمول)
فضای ادراکی جندبعدی ۱
كدام ستسور؟ و
دام کنشو
۱
نظر اتصميم اكنش تهايى
صفحه 11:
ل ساد سه یکین دی در ان سا (ST)
جص فضای ادراکی چندبعدی
د اه
۸ كم
يبدا
۳ بعد كمتر - ES
Sey a ¥
1
Perceptual
pace
د
بعد
7
5 5 4 8 1
صفحه 12:
۱ سوال كنترل توجه: ادراكى يا تصمیم؟!
* یادگیری کنترل توجه در
فضای ادراکی
اگر ما حداکثر 1 حسگر (يا در حالت کلی 1
موقعیت مکانی/شبیء مثلا در داعل یک
مانند بینایی) داشته باشیم که به کمک
انوا موقدت با حالت قفا وا دراک نماییم.
به ازای هر موقعیت_کدامین 11 بیش از بقیه هم
به لحاظ اطلاعانی مفیدتر است و هم به لحاظ
اقتصادی به صرفهتر است که استفاده شود؟
*_یادگیری کنترل توجه در فضای
تصمیم
به جای (] تا حسگر, در واقع | عدد خبره
داریم
صفحه 13:
* هدف این پژوهش ارائهی یک راهحل بکپارچه است برای حل مسئلهی Attentive
Decision Fusion ولی در در حوزه مختلف برای طراحی جمع خبرگان :
* برخط در کازبردهای وباتیگی
* برونخط در کاربردهای شناسایی الگو
صفحه 14:
Be اهمیت و انگیزهی این پژوهش:
fobolab جرا یادگیری؟
* یادگیری تنها اه حل ممکن ااست وقتیراه حل
بهینهی یک مسئله را در حالت کلی نمیدانیم
*مدل محیط و سیگنال دقیق خطا را نداریم
*مفاهدهسایی که ربانتو ظراعشن هر كدام:در محيظ
انجام میدهند. متفاوت است
صفحه 15:
Be اهمیت و انگیزهی اين پژوهش
ig fobolab: نوع یادگیری؟
* یک روش یادگیری در تعامل با محیط
* یک روش يادكيرى فقط براساس يك ارزيابى غير مستقيم از عملكرد
* يك روش يادكيرى كه قابليت وارد كردن هزينه براى هر كنش عامل
را داشته باشد تا در مجموع كل هزينه را بتوان كنترل كرد.
صفحه 16:
020 چرا روش توجهی برای ترکیب تصمیم؟!
* هزینه بر و طولانی بودن استخراج تمامی اطلاعات لازم برای
یک تصمیمگیری جامع
* نیاز به پردازش اطلاعات انبوه و مشورتهای متعدد با افراد
خبره برای اتخاذ یک تصمیم منطقی
* در مسائل تشخیص (پزشکی). مشورت با یک خبره(پزشک)
متخصص جدید. نیازمند فراهم کردن اطلاعات(انجام
آزمایشهای) جدید است؛ چرا که هر خبره (پزشک) ممکن
است از منظری خاص به یک مسئله (بیماری) واحد بنگرد.
* پس به کمک ایدهی توجه اين فرایند را تسهیل میکنیم.
صفحه 17:
0 چالشهای حوزهی ترکیب تصمیم چیست؟
دانش یک فرد خبره و حوزهی خبرگی وی در حالت کلی بر روی حوزهی
مسئله. معمولا ناکامل و نایکنواست.
* بسیار محتمل است که پیشنهادهای یک خبره روی کل فضای مسئله ناکامل
باشد
پيشنهادها در مورد برحی پرسشهایی که در حوزهی خبرگی وی واقع
نشوند. برای وی گمراهکننده و حتی ابهامبرانگیز هستند.
منطقی نیست که ابتدا همهی مشورتها را به صورت یکجا انجام دهیم و
سپس به یکباره و بر اساس کل آنها؛ اقدام به تصمیمگیری نماییم.
بنابراين لازم است كه به صورت ترتیبی و بر اساس انتخابی هوشمندانه
و با توجه به میزان سودمندی نظر هر خبره. اقدام به انتخاب توجهی
خبرهها کنیم!
صفحه 18:
صفحه 19:
fobolab:
META
1
صفحه 20:
fobolab|
مدلسازئ
يادكيرى Attentive Decision Fusion
به عنوان یک مسئلهی
یادگیری تعاملی
صفحه 21:
00010
Je, (Fil de selected experts so far
s=[ss,..5)]5,
Oe otherwise
aeA4A=TUD
x = Pr(als)
Decision support of an كت
expert about all actions
22
صفحه 22:
0۳
مولفههای کلیدی MDP مفروضس
= the initial state of ADEL agent before consulting any LDE
=O.
aa
|») 7ل بكر selected experts مد far
۳ otherwise
> ره ره یدرد
م04
۱۳) =d;| f)Prid,, =
!= the number of LDEs
o= |D| = the size of the decision actions
if a=d,<D=s € Terminal state
High Positive, ifa= Correct Decisio
r= High Negative, ifa= Wrong Decision= D
r= (Small Negative) x (number of already consulted experts), ifa=T
State (S)
Actions
(4)
‘Transition
Function
(Iran)
Reward
Function
6
صفحه 23:
fobolab:
تحقق چارچوب پیشنهادی
اين رساله در:
i حوزه برونخط
١ حوزه برخحط
صفحه 24:
fobolab:
تحقق چارچوب
در حوزهی برون خط
صفحه 25:
رگیری |۸10۳ در حوزه برون خط
دادهی آزمون قابلاتکائی برای محکزنی مسئلهی ترکیب تصمیم
نداریم.
پس طبقهبندی و تشخیص را انتخاب کردیم» چون:
— طبقهبندی وظیفهی مناسبی برای آزمودن یک روش تصمیم گیری از جنس
ترکیب تصمیم به نظر میرسد.
- خبرههای محلی که نیاز داریم را میتوانیم به سادگی با طبقهبندهای محلی
جایگزین نماييم.
- با انتخاب طبقهبندی به عنوان وظیفهی محک. میتوانيم روش خود را با
روشهای شناخته شدهی این حوزه مقایسه نماییم.
اما بدين ترتیب. خبرهها را هم بايد خودمان بسازیم!
صفحه 26:
fobolab:
ساختن خبرهها: چند فرصت و یک تهديد!
فرصتها:
- روش ما به یک آلترناتیو برای محکزنی با روشهای شناختهشدهی حوزه
طبقهبندی تبدیل میشود
IIL در حوزهی پيشنهاد و تست روشهایی برای طراحی خبرگان هم
به عنوان یک :>1ا0۲00- 2۷ وارد میشویم.
* ورود به حوزهی شناسایی الگو و شکلدهی فضای جایگزین یادگیری و
یک طراحی مناسب برای خبرگان ساده نیست: اگر خبرهها را از قبل
داشتیم. صرفا برای مشورت با آنها هزینه لحاظ میکردیم و نظر آنها را در
هر مورد بنا به روش خود به صورت ترتیبی ترکیب میکردیم و..
صفحه 27:
robolab طراحی خبرهها با هدف ایجاد تنوع
885 ۰۳ ۳
صفحه 28:
wLDE . طراح «i, BRSM سیاست
Tho sot of features: F robolab
Number of Experts
2 7
روشی برای ایجاد یک طراحی سریع» و
هیا موه مق مدای
aula ی
Pa eee
ما کار sales ae
ed Sees pots
2
Number of Classifiers Dis
NomboratFootres per Clssiber =
ibe
1
a
a
Fe
eee
1
‘Make [bins of sorted features;
feach contains fpc features.
ساده و طبعا تصادفی(البته به صورت متوازن)
Balanced Random Sub-space
Metod
=
Randomly select fc
features from these I bins
to assign to the feature
subspace of local experts.
‘diffrent portions of feature space:
Fe by
We
صفحه 29:
یواست ۳۱5 برای
طراحی 00اه
نوزیع ویژگیهای کمهزینه میان
اولویت دادن به طراحی که ویژگیهای
ر
پرهزینه را به تعداد محدودی از خبرهها
منتسب نماید بر طراحی دیگری که بدون
توجه به هزینهی لازم برای به دست آوردن
هر ویژگی, آنها را به صورت یکنواخت و بر
اساس تمادف مان همهی ماش
وده
“The sot of features: F Number of
Classes - 6
م
Divide the features into two
groups: expensive and inexpensive
موه تم له ها هه موه له دون
4
Randomly distribute the expensive
features among local experts
1
‘Map all the training instances to the Decision
Space Using the decision of each local expert
+
7
GlustMem, = number of
‘members of class jin
the cluster j
TERY] وو
dustMem, 3
Yes 3
تین
‘We have / different portions of feature
space: fy. f,called cls(i).F where
Pre-Knowledge based Sun-sapce Method
صفحه 30:
fobolab| دادهها و روشهای محک
* دادهها
> يازده داددى انتخا
روشهای فضاء
- یک طبقهبند NN دز ر فضای ویژگی
< روش Bagging
— روش ۸050005۲
UCI ML Repository از مجموعه دادههای
ژثیهای فضنای تصعین:
یک طبقهبند ۲-۱ در فضای تصمیم
- روشهاى تركيب تصمیم
چسب خروجی: روش رایگیری اکثریت
رتبی تصمیمهای خروجی: روش Borda-count
صفحه 31:
fobolab:
کارایی: متوسط نرخ تشخیص «در ه بار اجرا) روی دادهی
آزمون
قوام نسبت به نحوهی تفکیک ویژگیها: واریانس نرخ
تشخیص «در ه بار اجر) روی دادهی آزمون
نسبت مشورت
anc سس
مه
als
صفحه 32:
9 ADFL+BRSM: suc 5
*_ شکست رقبای ترکیب تصمیمی خود از لحاظ نرخ تشخیص eld
- حتی در میاردی که نرخ تشخیص هر خبره به صورت محلی پایین است.
* مشورت هوشمندانه ۸۸0۳1 بعد از آموزش در هر حالت فقط با خبرگانی که سودمند تشخیص
داده شدهاند (چانکه نت مشورت نشان میدهد)
در مورد برخی داده ها شکست از Bagging , Adaboost
کچ له وه ]| Sectors
هو هه هه | اه هل ای اه
¥ اد a =e Er aa
de © سر یه | سید
si ts [ eon
نیا 9 م | سيم )0.00 0005( Ee
صفحه 33:
+PKSM ADFL; slic _
* ازایش معناداز ترج تشخیصی نهایی بر روشهای رقیب هم در دستهی ترکیب تصمیم و هم
Bagging , Adaboost
واریانس کم در نرخ تشخیص نهایی
- قوام نبت به چگونگی شکست کل دادهبه مجموعههای آموزش و آزمون و نیز شکست مجموعهی ویژگیها میان
خبرههای مختلف
* _لزوم حداقل درکی از معنای ویژگیها!
م ماه سوت مهن
Ecemble z اهلاس Fron Metods كمومه
ww | 2 ههد con se Algor
wa | جم سل مه | یه | که
٩ | ۲۶
as Ps as a ۳
om | oo | eo» | 0 | eon ۳
5 او | 7 Pa هو
coon | coo | 08, | oor, a as a oo | EF | وس | تاد
Pa من روم
Dacian Sane Meo Fea Sac Metts
3 ممع قوست Metis نیج اه
“aoa wn | 2 ميم | ase grit 6
295 | 6 | 5م NW ]مدمه هه | میت | Com
pa | وت vst
as | sm | a 1 0 ود
oon, | @ | sav | coon
فد | یی ]ود هل[ كلد
007 ند 595 a on )0.001( )0.04 } )0.03( ,)0.08 )0.005(
830 | هم a9
oon | aon | oon | con | cos 7
صفحه 34:
آزمون علامت(95]). ویلک و کسون (0۷) و (01) ] میان
11 5 + 1 هال بر اساس بهترين طبقهبند يايه و روشهاى رقيب
Fusion(Be Ensemble(B Adaboost+k Adaboost+S ظدووتمو+ا-
vM NN
sts) ests) -NN
100/1 7/2/2 11/0/0 2/1 902 Win/draw/loss
‘ps=0.0009
w=0.0009 نك
pt=0 pt=0.0123 _pt=0.0068 st
515101 +811 با بهترين15 1.5 ها امستقاز نوع الكوريتم يادكيرىئيليم) :
از بهترین روشهای رقیب در دسته روشهای اجماع خبرگان با ٩۰ درصد اطمینان و
6
از بهترین روشهای رقیب در دستهی ترکیب تصمیم با ۹۵درصد اطمینان, بهتر عمل مى كند.
صفحه 35:
fobolab معیارهای ارزیابی تکمیلی
* قوام نسبت به ۲ گونهی مختلف از خطاهای زمان طراحی
خبرگان
- خبرهاى كه در حالت بايئرى» صد در صد و در حالت حندكلاسه با
الگوی مشخصی به طور هدفمندی اشتباه میکند.
- خبره ای که نظر تکراری ارائه مینماید. ۱ ات
ey |
صفحه 36:
obo
تست خبرههای تکراری rr
ERN os | Bescon] Dataset
mst ows | مس ون | سم | ممم | عي | (ame ase
Space| toes inane)
۳77 سوه
ie (0.03) | (0.06) (0.03) (0.07) (64.5)
With duplicated Diabetes:
uae soa | na | soa | sea cup a) é
eon | oon | 09 | eon | BE G.
66.6 713 200 Original, 3
Be (0.003) (0.02) (0.05) (0.02) 71.2) Hepatitis 8
سره
وه هه | 45 evn)
aa ددم | دمم J7200 | DE
ire
ENN on] Deserption | — Dataset
امه Borda
تالضع | spre | own | ۳ سدس | Decision | مهس | کت وه | 4
Space LDEs) learner) 2
0 55 | 554 551 0 —| Ona
هه | مهم | ما “os (615) هه 7
ue هجو | هجو لسویوی |S
5نم | won | هم همم E
rs) .
saa] esa [7500 J] —aa3 | — Orginal
gue 4رد 2 (۵8 و (0.001) (74.5) ‘Wavetocn
وري | 2250 | 7102 | osas | 7505 [oso | ۳۳| ون
@.00 | (002 | won | coe | coo | dre
صفحه 37:
ای یادگیری د؛
که هر دو خبره
صفحه 38:
نتایج آزمایش افزودن خبرهی تکراری rr
* این افزونگی بر خلاف روشهای رایج ترکیب تصمیم تاثير
مخربی بر نتیجهی روش پیشنهادی نداشته است.
- قوام روش به چنین خطاهای زمان طراحی!
نتایج روشهای ترکیب تصمیم. تاثیر مستقیم این آزمایش را در
خروجی نشان میدهند.
° عامل یادگیر در ما هم با یک خبیه و هم با کپی آن مشورت
نمی کند.
صفحه 39:
ee مره
Camere
Pima Indian
Diabetes
Original
With output-
inverted LDE
Dataset
(LDEs’ Base
learner)
Dermatology
(NB)
Satimage
(NN)
KNNon | Avg CCR
Decision Space | of LDEs
72.3 5
64.5
(0.07)
100
8 516
Description
(Avg. CCR of
LDEs)
Original
(97.25)
With
systematically
wrong LDE
(81.04)
Original
(89.3)
With
systematically
wrong LDE
(74.4)
75.3
(0.03)
68.9
(0.08)
INN on
Decision
Space
95.5
(0)
100
(0)
90.15
(0.0002)
100
(0)
نتیجهیآ زمایش افزودن
تصمیم گیرهای به طور سیستماتیک خطادار
Borda Majorit
owas | “count _|yvoting
66.3 76.6
0.03)} (0.06)
59.5 | 25
(0.01)} (0.04)
Borda | Majority
Count | Voting
82-5
)0012( | 0
73.7 | 62.03,
(0.002) | (0.03)
50:30 | 8
)0( | 02
4a72 | 63.80
/
ows
(0)
65.9
(0.06)
63.95
0.01)
52.78
۳
ADFL.
17.25)
(0.0003)
100
0)
95.02
(0.0001)
100
Consultat
fon Ratio
34/4
1.265
34/5
1.5/6
صفحه 40:
صفحه 41:
بحث در مورد طراحی خبرههای محلی
3 Adaboost شكت 885۱ + ۸۵0۴۱ از robolab
Bagging
روی اغلب مج [های دادهای
بررسی توزیع نمونههای آمیزشی در فضای تصمیم
(فضای تصمیمی متشکل از خبرههای محلی طراحی شده بر اساس روش BRSM که پیش از بقیه با آنها مشورت شده
مشاهده: یک فضای تصمیم در هم که به ندرت میشد مرز تصمیم مشخصی میان نمونههای
کلاسهای مختلف متصور شد.
: بسیار دشوار است كه 810151 بتواند با قراردادن گوسیها و تنظیم میانگین و
واریانس آنها. مرز تصمیم مشخصی در فضای تصمیم شکل بدهد و به کارایی مناسب
و مورد انتظار دست یابد.
صفحه 42:
fobolab:
هستهی گوسی در نواحی مختلف فضای یادگیری قرار میدهد.
- سپس میانگین و واریانس آنها را در طول زمان با ورود نمونههای
یادگیری جدید. تنظیم (بهروز) میکند.
9 در هم رفتگی زیاد نمونههای یادگیری باعث افزایش تعداد
هستههای گوسیمیشود و کار را دشوار و بعضا غیرممکن
میکند.
* يس باید تا حد امکان فضای تصمیم اولیه را گرانولبندی شده
به 80 تحریل eau
صفحه 43:
و و و و ها دهی
robolab شکلدهی
DHS PR book: Ch2. page 6 44
pcr
صفحه 44:
5 بحث در مورد طراحی خبرههای محلی(۳)
* تعریف معیاری با نام ۱۳06 5606۲301][6۷برای سنجش Ole
قابلیت خوشهبندی فضای تصمیم (مطلوبیت موردانتظار در فضای تصمیم)
* روش 6۷ بر اساس بیشینه نمودن این معیار, ویژگیها را انتخاب
مینماید.
صفحه 45:
robolab
نتایج طراحی خبرههای محلی به روش KSM
* غالبا افزایش متوسط دقت خبرههای محلی و کمیت جداپذیری در فضای
تصمیم هر دو بر بهبود کارایی نهایی ۸٩10۳1 تاثیرگذار هستند.
بهبود متوسط دقت خبرههای محلی در اکثر موارد موجب جداپذیری
بهتر هم میشود ولی عکس این شرایط وجود ندارد.
* به صورت تجربی مشاهده شد که ضریب همبستگی میان جداپذیری و
متوسط دقت خبرههای محلی یک عدد منفی و کوچک است.
bea SI * بيثارنياييلست
UT خبرههای طراحی شده (حتی با متوسط قدرت کم) به صورت بالقوه برای
ا۸۸2۲ مناسب هستند یا خیر؟
۰
معمولا طراحی خبرههایی با متوسط قدرت بالا در عمل دشوار است در
حالیکه افزایش جداپذیری به مراتب عملیتر است.
صفحه 46:
5 تحقق چارچوب پیشنهادی
fobolab
اين رساله در:
v حوزه برون خط
۳ حوزه برخط
2
صفحه 47:
fobolab:
تحقق چارچوب در حوزهی برخط
(Sits 6 Seb cl, METAL)
صفحه 48:
001010 در حوزه برخط
* باز هم به دنبال حل مسئله کنترل توجه از طریق تبدیل آن به
فرم یک مسئله یادگیری ترکیب تصمیم هستیم.
Goals Lh آموزشی نداریم:
پس ایجاد خبرههای محلی چگونه باید باشد؟!
* قطعا در این حوزه نیازمند تعامل با محیط برای آموزش
خبرههای محلی هستیم.
صفحه 49:
Mixture of Experts Task & Attentié® امع
on
Learning
Structural
Learning
ا ل سس Phases.
(==.
صفحه 50:
Mixture of Experts Task & Attenti امع
Learning
Structural
Learning
sles Phases.
(==,
Lona
Behavior
Quality
صفحه 51:
- خبرهی انسانی به عنوان مربی و نقاد عمل
میکند.
- ریزعامل ها
0
به (Sry +4) =Qry, (Sra, (+
Qe (Sra Fes) =Qraa Sra» Aen) + TDs
صفحه 52:
Mixture of Experts Task & Attentié® امع
on
Learning
Structural
Learning
manna Phases.
و ==={
صفحه 53:
fobolab:
یک مرکز ترکیب د
بين قرار مى كير
ريزعاملها و عامل مشاهدكر كامل تصميم
حريصائهى خحود را اتخاذ مكنند وآ
به همراه درجه بشتيبائى به مركز تركيب
نهایی میفرستند.
تصمیم نهایی توسط مرکز ترکیب و بر
اساس ماکزیمم نمودن يك معيار خبرگی
انجام مىشود.
بدین ترتیب کیش انجام میشود و سيكنال
تقویت از محیط دریافت میشود
وقتی Sth
ریزعاملها تبدیل به خبرههای محلی
میشوند.
54
يزغاملها عمكرا مى شوف.
عامل مشاهدهگر کامل حذف میشود و 1۳
Action
py =argMaxAs,,,4,)),K=12,...] Al
Aron =ATMAX A Soy 4), K=L,
ارم ,رک .رک هعرج
صفحه 54:
Mixture of Experts Task & Attentift امع
Learning
Structural
Learning
صفحه 55:
فاز سوم: یادگیری کنترل تو
توجه کردن بهنظر یک تفر
2
Decision
support of an
expert about
Aue. =Abtiar موسیگ لا
Avorcoptuar (Consult TAConsult TA.. Consult Tp
مالعا .ما .لها رت ی
صفحه 56:
Mixture of Experts Task & Attentift امع
Learning
Structural
Learning
Phases -_--------------, وس
۰
Passive Demonstration-based Learning ‘
1
1
۱
1
0
Bayesian
Continuo Attention Control Learning 1
23 1
7
Evaluation
ع دب
مگ
Behavior
Quality
merge
صفحه 57:
fobolab معیارهای ارزیابی
* از منظر یادگیری:
فت یادگیری بر اساس متوسط پاداش دریافتی که عامل در ضمن
یادگیری به دست میآورد
- متوسط پاداش تجمعی دریافتی در حين تست
- متوسط تعداد كا مهائ مشياهذه را كه عامل دن هن جالت يز ارد
ان نشانگر آن که عامل به مرو خبرههای
باست.
* یک کمیت نزولی در طو
در هر موقعیت را شناسایی
* از منظر رفتاری:
- تعداد تصادفها mo
نرمی مسیر رانندگی cS
> اتخاذ سرعت مناسب
انش لازم
صفحه 58:
fobolab:
تحقق چارچوب در یادگیری رانندگی
صفحه 59:
صفحه 60:
ت۵۵ متوسط پاداش دریافتی ضمن یادگیری
0
© aD ۳ 0 مه 0۳ en
سس
صفحه 61:
ف ©
متوسط تعداد گامهای برداشته شده ضمن ناد گیری
Percent of Bins of Perceptual Steps
Selected by ACL
صفحه 62:
fobolab
63
صفحه 63:
fobolab:
یادگیری
Attentive Decision
Fusion
صفحه 64:
صفحه 65:
تتیچه گیری بر آساتی آیدهی سرب
از منظر 52
- یادگیری ترتیب مناسب مشورت با تصمیم گیرهای محلی به
- یادگیری سیاست مشورتی به گونهای محلی به جای یادگیری یک استراتژی مشورت یکسان روی کل
فضای تصمیم
* این ویژگی به ویژه وقتی تصمیمگیری در زیرفضاها از تصمیمگیری در فضای اولیه به گونهی
دقیقتری امکانپذیرباشد. خیلی مطلوب است.
ویژگی "محلی عمل نمودن" در فضای تصمیم. دستی طراحی نمیشود بلكه ياد گرفته میشود.
- ایجاد یک درجهی آزادی در طراحی تصمیم گیرهای محلی: کافی است تنها در بخشی از فضای داده به
- کمینه نمودن هزینه و تعداد مشورتها و یافتن تصمیمگیرهای مطلعتر
"7 به صورت ترتیبی و بر اساس موقعیت
از منظر کاربرد
- یک سیستم یادگیرندهی پشتیبان تصمیم با کاربرد در هر دو حوزهی برخط و برونخط
از یک منظر پژوهشی نسبتا متفاوت
- ارائهایدههایی در مورد ساختن تدریجی درخت تصمیم به کمک یادگیری تقویتی ex
صفحه 66:
6 Ema
نتیجه گیری از تحقق در حوزه yar?
کارایی مناسب در مواجهه با رقبای شناخته شدهی حوزه ویژگی و تصیم
قابلیت یادگیری انتخایی /توجهی تر کیب تدریجی تصمیم (در مقایسه با روشهای
استاتیک که از همهی ورودیها استفاده میکنند.)
ت بهره گیری از طبقهبندهای محلی که لزوما هم خیلی خوب طراحی
نشدهاند.
توانایی مدیریت برخی خطاهای رایج زمان طراحی (از قبیل تکرار یک خبره در
مجموعهی خبرگان که موجب اعمال نظر مضاعف میشود و نیز خبرههایی که به
صورت هدفمند نظر خطادار اعلام مینمایند) و انتخاب بهترین عکس العمل در
قبال آنها.
توانایی در اختیار قرار دادن نحوهی رسیدن به جواب بهینه علاوه بر اينکه خود
پاسخ نهایی را هم در اختیار فرد تصمیم گیر قرار میدهد.
صفحه 67:
9
محدودیتهای به کار گیری در حوزه ar
اگر با یک مسئله تصمیمگیری سروکار داریم که در مورد آن: نظرات
خبرههای گوناگون وجود دارد
یا به سادگی میتوان نظرات این خبرهها را تهیه یا شبیهسازی نمود
- با تقسیم ویژگیها بر اساس 851۷ یا ۷50۷ خبره های ضعیف
ایجاد نمی گردد
9 ی 5 را باب ند تاسیی افزایین قاد کهقلاق تقيميم تفای قابل اتف
اشد
نحوهی تر کیب مناسب این تصمیمها برای تصمیم گیری نهایی معلوم
نبوده. استفاده از همهی آنها هم هزینهبر باشد
هدف. کاهش هزینهی تصمیمسازی بوده. تحقق این کاهش هزینه از
طریق مشورت با خبرهها پذیرفتنی باشد
صفحه 68:
گامهای آتی برای ادامه کار در حوزه برونخظ
ارائه روشهای کارآمدتر برای ساختن طبقهبندهای محلی
آزمودن کارآمدی این روش در مسئلهی یادگیری چندین
هستهای
- چون در روشهای مبتنی بر 6۲6۵ مثل 5۱/۷ هدف آن است
که جداسازی در فضای با بعد بالاتر ولی جداپذیر خطی صورت
بگیرد. شاید این روش جایگزین خوبی برای جداپذیر نمودنی که
لازمه کار است. باشد.
تشکیل ساختار درختی ترکیب تصمیم با هدف نشان دادن برتری
این روش بر روشهایی که در تشکیل درخت. تنها نگاهی به
سودمندی هر گام در شکاندن فضای ادراکی دارند اند ۶0۲00۷
é (based measure of impurity
صفحه 69:
04
9
نتیجه گیری از تحقق در حوزه برخط ]
توزیع نمودن دشواری یادگیری در ازهای متوللی: بار اصلی یادگیری وظیفه در
فاز اول و دوم. بار اصلی یادگیری کنترل توجه در فاز سوم.
توانایی یادگیری در یک فضای جایگزین و مناسب به جای فضای ادراکی
چندبعدی اولیه با ویژگیهایی از قبیل توانایی استفاده از دانش خبرههای
متفاوت, احتمال بدنملیی کم و با ابعادی که پیش از ابعاد نسخه معادل ادراکی
al ET pb
توانایی نادیده گرفتن ابعاد نامرتبط به وظیفه در هر وضعیت
یادگیری انجام وظیفمی رانندگی با تعداد محدودی شیفت توجه در یک فضای
پیوسته حالت که نمونهای از وظایف رباتیکی دنیای واقعی است
Ke git راهکار نمینه برای تعریف سلسه مراتبی تلبع پاداش برای کاهش
حداکثری ابهام در یادگیری یک وظیفهی متنوع به لحاظ عملکردی
ارائهی یک راهکار نمونه برای طراحی عاملهای یادگیر یک وظیفهی ei’
صفحه 70:
سس
هدف از آرزیابی میزان بدنمایی*
* با محاسبه حد بالای احتمال رخداد بدنمایی در فضای تصمیم نشان
دادیم که با انتقال به فضای تصمیم. بر خلافد تصور احتمالی»
احتمال بروز بدنمایی را افزایش ندادهايم.
نحوه محاسبه:
مساوی قرار دادن مختصات دو نقطه در فضای تصمیم
- تفکیک معادله به اجزاء سازندهاش و تقریب کمیتهای پیوسته با
کمیتهای گسسته متناظر
7 فرمولبندی مسئله "احتمال بروز اين تساوی" در قالب یک مسئله آنالیز
ترکیبی معادل
- بيدا كردن ياسخ به يك فرم بسته بازكشتى
- بررسى صحت فرم بسته به كمك روش تكرار زياد به صورت عددى
صفحه 71:
سس
محدودیتهای به کارگیری در حوزهی بر
اگر با یک مسئلهی یادگیری رباتی مواجه هستیم که فضاى ادراکی آن
جندبعدی است
اگر استفاده از کل فضای ادراکی به یکباره برای یادگیری ربات بسیار
پرهزینه باشد.
اگر فضای کنشهای ربات قابل گسستهسازی و در مقایسه با ابعاد
فضای ادراکی بسیار محدودتر باشد
اگر طراحی تابع پاداش به صورتی ترجیحا سلسلهمراتبی شدنی باشد
اگر یادگیری در زیرفضاهای جداگانه به دلیل بدنمایی ذاتی شدید. با
مشکل عدم همگرایی مواجه نباشد
اگر بعد فضای تصمیم (حاصلضرب بعد فضای کنشهای ربات در
تعداد خبرههای محلی) با توجه به روش یادگیری پیوستهای که بهکار
گرفتهمیشود. پذیرفتنی باشد. ۲
6
صفحه 72:
9 8
گامهای آتی برای ادامه کار در حوزه eee
* یافتن یک فضای فشردهتر به جای بازنمایی کنونی فضای
تصمیم
* بخشبندی و یافتن خوشههایی به صورت اتوماتیک در فضای
ادراکی به جای خبرههایی که در اين روش به صورت دستی
و بر اساس قواعد یافتهای طراحی شدند.
* اعمال روش در یک وظیفهی دیگر به گونهای که نیاز به در
نظر گرفتن مشاهدات گذشته نیز موجود باشد
* استفاده از تکنیکهای انتقال دانش قبلا یادگرفته شده برای
سرعت بخشیدن به فرایند یادگیری
صفحه 73:
fobolab:
بار ديكر
Attention 5) شما متشكرم!
صفحه 74:
سید راما
GAA افكت
2 3
SU bes
سل مور يود ae مرج براي ساهااة | | |ى
a eS Pee ae 9
75
صفحه 75:
مات ر
۲
Tat آقای هادی فیروزی:
آقاى آرش آرامى: طرلی روف
يحتهاى مقيد در Bayesian RL
ارائهی چارچوبی برای یادگیری کنترل توجه
در وظایف با فضای ادراکی چندبعدی
مریم سادات میریان
اساتید راهنما :دکترمجید نیلی ،دکتر بابک نجار اعرابی
1
استاد مشاور
2
فهرست مطالب
• مقدمه
• اهمیت و انگیزه
– پرداختن به کنترل توجه (در حالت کلی)
– این پژوهش (به طور خاص)
• نوآوریها در قالب یک شبکهی مفهومی با گذار از حوزههای مرتبط
• چارچوب پیشنهادی
– تحقق در حوزهی برخط
– تحقق در حوزهی برونخط
• آزمایشها و نتایج
• جمعبندی و نتیجهگیری
• پیشنهادهایی برای ادامهی این پژوهش
3
مقدمه :کنترلتوجه چیست؟
• روانشناسی
– کنترل نمودن روند تفکر بر یکی از چندین موضوع یا شیئی که به طور
همزمان ممکن است ذهن را مشغول نماید.
– بریدن از چیزهایی برای پرداختن موثرتر به چیزهای دیگر.
• مهندسی
– فیلتر نمودن فضای ورودی به گونهای که بر چیزی که در فرایند تصمیمگیری
ارزش بیشتری دارد ،متمرکز شویم.
– ایجاد ارزش/اهمیت کمتر برای ورودیهای گمراهکننده ،غیرقابل اتکاء و
نویزی
4
اهمیت پرداختن به کنترل توجه
• هرجا نیاز به تصمیمگیری
– در زمان محدود
– با هزینهی مشخص
– بر اساس اطالعات انبوه
باشد نیاز به روشی است که به نوعی از میان منابع اطالعاتی موجود،
زیرمجموعهی مناسبتر را برگزیند.
• تعابیر متفاوت ولی مرتبط به توجه در مهندسی:
–
–
–
–
5
پاالیش یا فیلترینگ
انتخاب حسگر
کاهش بعد
و ...
اهمیت و انگیزهی کنترل توجه ادراکی
(در حالت معمول)
•
•
حل مشکل محدودیت زمان و توان پردازشی
حل مشکل پیچیدگی فضای حاصل از ادراک همزمان تمامی ابعاد
سنسورهای ورودی
حل مشکل ابهام به دلیل اطالعات انبوه سنسFوری
راهی برای کارآمدتر نمودن حل مسئلهی تصمیمگیری
•
•
– کاهش بعد فضای ادراکی ربات
– کاهش نیاز به حافظه برای ذخیرهی مشاهدات غیرضروری
– سادهتر شدن مدلی که ربات برای انجام وظیفه باید از محیط بسازد
6
اهمیت و انگیزهی یادگیری کنترل توجه
(در حالت معمول)
• اینکه ”به چه/کجا نگاه کنیم؟“ و اینکه ”در پاسخ به مشاهدهی
انجام شده ،چه کنشی انجام بدهیم؟“ به یکدیگر تافته شدهاند.
• زیرمسئلهی اول در خدمت دومی است! (با هدف تسهیل و کاهش بار مسئلهی دوم)
Where to
?look
7
?What to do
اهمیت و انگیزهی این پژوهش:
یادگیری کنترل توجه در فضای تصمیم
• اینکه ”با چه کسی مشورت کنیم؟“ و اینکه ”در پاسخ به مشورت
دریافتی ،چه کنشی انجام بدهیم؟“ به یکدیگر تافته شدهاند.
– مشورت ها به صورت ترتیبی انجام میشوند.
– سطوح و ناحیهی خبرگی ها متفاوت هستند.
Whom to
?Consult
8
?What to do
ایدهی اصلی چارچوب
• تقسیم مسئلهی اصلی به زیرمسئلههای یادگیری
کوچکتر و سپس یادگیری نحوه برهمنهی نتایج:
• یادگیری انجام وظیفه در زیرفضاهای ادراکی سادهتر به
صورت موازی توسط ماشینهای یادگیر سادهتر
• یادگیری کنترل توجه با تعبیر یادگیری مشورت با همین
ماشینهای یادگیر cسادهتر در فضای تصمیم
10
مسئله یادگیری در فضای ادراکی چندبعدی
(در حالت معمول)
فضای ادراکی چندبعدی
کدام سنسور؟
کدام کنش؟
نظر/تصمیم/کنش نهایی
11
همان مسئله با نگرش پیشنهادی در این رساله (یادآوری)
فضای ادراکی چندبعدی
بخشبندی
Perceptual
Space
فضای ادراکی با
بعد کمتر
فضای ادراکی با
بعد کمتر
فضای ادراکی با
بعد کمتر
کدام
کنش؟
کدام
کنش؟
Decision Space
کدام کنش؟
کدام نظر؟
12
نظر/تصمیم/کنش نهایی
کدام
کنش؟
2سوال کنترل توجه :ادراکی یا تصمیم؟!
• یادگیری کنترل توجه در
فضای ادراکی
اگر ما حداکثر nحسگر (یا در حالت کلی n
موقعیت مکانی/شیء مثال در داخل یک
مدالیتی مانند بینایی) داشته باشیم که به کمک
آنها موقعیت یا حالت فضا را ادراک نماییم
به ازای هر موقعیت کدامین ’nبیش از بقیه هم
به لحاظ اطالعاتی مفیدتر است و هم به لحاظ
اقتصادی به صرفهتر است که استفاده شود؟
13
• یادگیری کنترل توجه در فضای
تصمیم
به جای nتا حسگر ،در واقع lعدد خبره
داریم
به ازای هر موقعیت کدامین ’lاز lتا خبرهها را
برای مشوت انتخاب کنم تا کنش با بیشترین
امید پاداش و کمترین هزینه را پیدا کنم؟
دیدگاه پیشنهادی این پژوهش
بینش
(Intuitio
)n
تعریف یک مسئله یادگیری
در فضای ادراکی چندبعدی
+
طراح خبره
طراحی جمع خبرگان
Coreاین
پ ژوهش
یادگیری
Attentive Decision
Fusion
• هدف این پژوهش ،ارائهی یک راهحل یکپارچه است برای حل مسئلهی Attentive
Decision Fusionولی در دو حوزه مختلcف برای طراحی جمع خبرگان :
14
• برخط در کاربردهای رباتیکی
• برونخط در کاربردهای شناسایی الگو
اهمیت و انگیزهی این
چرا یادگیری؟
پژوهش:
• یادگیری تنها راه حل ممکن است وقتیراه حل
بهینهی یک مسئله را در حالت کلی نمیدانیم
• مدل محیط و سیگنال دقیق خطا را نداریم
• مشاهدههایی که ربات و طراحش هر کدام در محیط
انجام میدهند ،متفاوت است
15
اهمیت و انگیزهی این پژوهش
چه نوع یادگیری؟
• یک روش یادگیری در تعامل با محیط
• یک روش یادگیری فقط بر اساس یک ارزیابی غیرمستقیم از عملکرد
• یک روش یادگیری که قابلیت وارد کردن هزینه برای هر کنش عامل
را داشته باشد تا در مجموع کل هزینه را بتوان کنترل کرد.
16
چرا روش توجهی برای ترکیب تصمیم؟!
•
•
•
•
17
هزینه بر و طوالنی بودن استخراج تمامی اطالعات الزم برای
یک تصمیمگیری جامع
نیاز به پردازش اطالعات انبوه و مشورتهای متعدد با افراد
خبره برای اتخاذ یک تصمیم منطقی
در مسائل تشخیص (پزشکی) ،مشورت با یک خبره(پزشک)
متخصص جدید ،نیازمند فراهم کردن اطالعات(انجام
آزمایشهای) جدید است؛ چرا که هر cخبره (پزشک) ممکن
است از منظری خاص به یک مسئله (بیماری) واحد بنگرد.
پس به کمک ایدهی توجه این فرایند را تسهیل میکنیم.
چالشهای حوزهی ترکیب تصمیم چیست؟
•
•
•
•
•
18
دانش یک فرد خبره و حوزهی خبرگی وی در حالت کلی بر روی حوزهی
مسئله ،معموال ناکامل و نایکنواست.
بسیار محتمل است که پیشنهادهای یک خبره روی کل فضای مسئله ناکامل
باشد
پیشنهادها در مورد برخی پرسشهایی که در حوزهی خبرگی وی واقع
نشوند ،برای وی گمراهکننده و حتی ابهامبرانگیز هستند.
منطقی نیست که ابتدا همهی مشورتها را به صورت یکجا انجام دهیم و
سپس به یکباره و بر اساس کل آنها ،اقدام به تصمیمگیری نماییم.
بنابراین الزم است که به صورت ترتیبی و بر اساس انتخابی هوشمندانه
و با توجه به میزان سودمندی نظر هر خبره ،اقدام به انتخاب توجهی
خبرهها کنیم!
Necessitates
Needs
On
Int line,
e ra
c ti
ve
Can be
considered from
perspective of
Is done by
Task
Type
e,
in vis
Offl per
Su
ed
Is done by
Can be solved
by
نمایش ارتباط حوزههای پژوهشی مرتبط:شبکهی مفهومی
META
L
ADF
L
19
Necessitates
META
L
Needs
Is done by
Can be
considered from
perspective of
نمایش ارتباط حوزههای پژوهشی مرتبط:شبکهی مفهومی
20
مدلسازی
یادگیری Attentive Decision Fusion
به عنوان یک مسئلهی
یادگیری تعاملی
21
Feature Space (F)
f1
f2
e1
fl
fi
e2
ei(fi)
ei
el
a ti T
Decision making
ADFL agent
Update si using ei(fi)
a dj D
Decision support of an
expert about all actions
نیاز به یک روش
یادگیری پیوسته حالت
و گسسته کنش
Bayesia
n
RL
ei ( fi ) [pr(dei d1 | fi ) pr(dei d2 | fi )...pr(dei dc | fi )
22
مولفههای کلیدی MDPمفروض
برای فرمولبندی مسئله
23
تحقق چارچوب پیشنهادی
این رساله در:
حوزه برونخط
حوزه برخط
24
تحقق چارچوب
در حوزهی برونخط
25
بهکارگیری ADFLدر حوزه برون خط
• دادهی آزمون قابلاتکائی برای محکزنی مسئلهی ترکیب تصمیم
نداریم.
• پس طبقهبندی و تشخیص cرا انتخاب کردیم ،چون:
– طبقهبندی وظیفهی مناسبی برای آزمودن یک روش تصمیمگیری از جنس
ترکیب تصمیم به نظر میرسد.
– خبرههای محلی که نیاز داریم را میتوانیم به cسادگی با طبقهبندهای محلی
جایگزین نماییم.
– با انتخاب طبقهبندی به عنوان وظیفهی محک ،میتوانیم روش خود را با
روشهای شناخته cشدهی این حوزه مقایسه نماییم.
• اما بدین ترتیب ،خبرهها را هم باید خودمان بسازیم!
26
ساختن خبرهها :چند فرصت و یک تهدید!
• فرصتها:
– روش cما به یک آلترناتیو برای محکزنی با روشهای شناختهشدهی حوزه
طبقهبندی تبدیل میشود
– با اینکار ،در حوزهی پیشنهاد و تست روشهایی برای طراحی خبرگان هم
به عنوان یcک By-productوارد میشویم.
• ورود به حوزهی شناسایی الگو و شکلدهی فضای جایگزین یادگیری و ....
• تهدید:
– ارائه یcک طراحی مناسب برای خبرگان ساده نیست :اگر خبرهها را از قبل
داشتیم ،صcرفا برای مشورت با آنها هزینه لحاظ میکردیcم و نظر آنها را در
هر مورد بنا به روش خود به صcورت ترتیبی ترکیب میکردیم cو...
27
طراحی خبرهها با هدف ایجاد تنوع
28
PKSM
BRSM
هاLDE برای طراحیBRSM سیاست
The set of features: F
Balanced Random Sub-space
Metod
Number of Experts = l
Select
RF = Redundancy_Factor: the number of local
experts having access to one feature.
LF = Locality_Factor: the portion of whole
feature space to be considered by a single
local classifier.
،• روشی برای ایجاد یک طراحی سریع
)ساده و طبعا تصادفی(البته به صورت متوازن
• ایجاد کالسه کنندههای تقریبا همقدرت
Set
Number of Classifiers = l = 1/ LF
Number-of-Features-per-Classifier =
fpc
Rank the features according
to the effect on CCR using
Forward Selection/Backward
Elimination
Make l bins of sorted features;
each contains fpc features.
Randomly select fpc
features from these l bins
to assign to the feature
subspace of local experts.
We have l different portions of feature space:
f1,…, fl
29
The set of features: F, Number of
Classes = |C|
Pre-Knowledge based Sun-sapce Method
Number of Experts = l
Divide the features into two
groups: expensive and inexpensive
Assign all inexpensive features to all local experts
Randomly distribute the expensive
features among local experts
Map all the training instances to the Decision
Space Using the decision of each local expert
Cluster the Decision Space using
Kmeans method into CN clusters
2<T<MaxT
ClustMemij = number of
members of class i in
the cluster j
CN
SI
j 1
maxi (clustMemij )
C
برایPKSM سیاست
هاLDE طراحی
توزیع ویژگیهای کمهزینه میان بیشتر خبرهها
اولویت دادن به طراحی که ویژگیهای
پرهزینه را به تعداد محدودی از خبرهها
منتسب نماید بر طراحی دیگری که بدون
توجه به هزینهی الزم برای به دست آوردن
ورت یکنواخت و برc آنها را به ص،هر ویژگی
اساس تصادف میان همهی خبرهها تقسیم
مینماید
•
•
100
clustMem
i 1
ij
Yes
Is Separability
Index acceptable?
We have l different portions of feature
space: f1,…, fl called cls(i).f where
30
دادهها و روشهای محک
• دادهها:
– یازده دادهی انتخابی از مجموع ه دادههای UCI ML Repository
• روشهای فضای ویژگی:
– یک طبقهبند k-NNدر فضای ویژگی
– روش Bagging
– روش Adaboost
• روشهای فضای تصمیم:
– یک طبقهبند k-NNدر فضای تصمیم
– روشهای ترکیب تصمیم:
•
•
•
31
برچسب خروجی :روش رایگیری اکثریت
رتبهی تصمیمهای خروجی :روش Borda-count
خروجی پیوسته به فرم تصمیمهای احتماالتی پسین :روش OWAبا وزنهای بهینه بهدستآمده از
الگوریتم یادگیری گرادیان نزولی
معیارهای ارزیابی پایه
• کارایی :متوسط نرخ تشخیص (در 5بار اجرا) روی دادهی
آزمون
• قوام نسبت به نحوهی تفکیک ویژگیها :واریانس نرخ
تشخیص (در 5بار اجرا) روی دادهی آزمون
• نسبت مشورت
Number
of Consulted
LDEs
Totalnumber
of LDEs
32
Consultati
onRatio
عملکردADFL+BRSM
•
شکست رقبای ترکیب تصمیمی خود از لحاظ نرخ تشخیص نهایی
– حتی در موXاردی که نرخ تشخیص هر خبره به صورت محلی پایین است.
•
•
33
مشورت هوشمندانه ADFLبعد از آموزش در هر حالت فقط با خبرگانی که سودمند تشخیص
داده شدهاند (چنانکه نسبت مشورت نشان میدهد)
در مورد برخی داده ها شکست از Adaboostو Bagging
•
•
عملکرد+PKSM ADFL
افزایش معنادار نرخ تشخیص نهایی و غلبه بر روشهای رقیب هم در دستهی ترکیب تصمیم و هم
Adaboostو Bagging
واریانس کم در نرخ تشخیص نهایی
– قوام نسبت به چگونگی شکست کل داده به مجموعههای آموزش و آزمون و نیز شکست مجموعهی ویژگیها میان
خبرههای مختلف
•
لزوم حداقل درکی از معنای ویژگیها!
34
آزمون عالمت( ،)psویلکوکسون ( )pwو) t (ptمیان
ADFL+PKSMبر اساس بهترین طبقهبند پایه و روشهای رقیب
Bagging+kNN
Adaboost+S
VM
Adaboost+k
-NN
Ensemble(B
)ests
Fusion(Be
)sts
Win/draw/loss
9/0/2
8/2/1
11/0/0
7/2/2
10/0/1
PKSM+ADFL(Be
)sts
ps =0.0654
pw=0.0048
pt=0.0068
ps=0.0117
pw=0.0097
pt=0.0123
ps=0.0009
pw=0.0009
pt=0
ps= 0.0654
pw= 0.0322
pt= 0.0406
ps=0.0117
pw=0.0019
pt=0.0009
ADFL+PKSMب ا ب هترین LDEها (م ستقلاز ن وع ا لگوریتم ی اد گیریپ ایه) :
از بهترین روشهای رقیب در دسته روشهای اجماع خبرگان با 90درصد اطمینان و
از بهترین روشهای رقیب در دستهی ترکیب تصمیم با 95درصد اطمینان ،بهتر عمل میکند.
35
معیارهای ارزیابی تکمیلی
• قوام نسبت به 2گونهی مختلف از خطاهای زمان طراحی
خبرگان
– خبرهای که در حالت باینری ،صد در صد و در حالت چندکالسه با
الگوی مشخصی به طور هدفمندی اشتباه میکند.
– خبره ای که نظر تکراری ارائه مینماید.
36
های تکراریFتست خبره
Majority
voting
66.3
(0.03)
76.6
(0.06)
75.3
(0.03)
k-NN on
Decision
Space
72.3
(0.07)
75.8
(0.05)
60.1
(0.07)
71.2
(0.01)
69.1
(0.05)
68.1
(0.07)
86.20
(0.003)
67.1
(0.02)
66.6
(0.02)
71.3
(0.05)
80.0
(0.02)
ADFL
1.9/4
76.34
(0.001)
2.1/5
3.4/5
3.3/6
85.34
(0.04)
65.5
(0.01)
63.81
(0.007)
70.45
(0.05)
78.2 (0.01)
62.95
(0.02)
54.04
(0.001)
64.35
(0.06)
77.91
(0.001)
60.13
(0.05)
50.20
(0.04)
60.7
(0.03)
66.72
(0.005)
82.9
(0.001)
75.88
(0.06)
65.39
(0.002)
75.00
(0.04)
81.33
(0.001)
82.50
(0.009)
71.92
(0.03)
65.45
(0.07)
76.05
(0.08)
80.59
(0.009)
2.9/5
78.40
(0.003)
3.1/6
2.1/5
OWA
(71.2)
With duplicated
LDE
Dataset
(LDEs’ Base
learner)
Diabetes
(NB)
Hepatitis
(SVM)
Description
(Avg. CCR of
LDEs)
Original
(61.5)
With duplicated
LDE
(61.5)
Original
(74.5)
With duplicated
LDE
(74.5)
Dataset
دادههای چندکالسی
Maj. Vot.
k-NN on
Decision
Space
68.60
(0)
ADFL
Description
(Avg. CCR of
LDEs)
Original
(64.5)
With duplicated
LDE
(64.5)
Original,
(71.2)
Borda
Count
Consultat
ion Ratio
2.4/6
OWA
داده های باینری
Bordacount
Consultatio
n Ratio
(LDEs’ Base
learner)
Vehicle
(k-NN)
Waveform
(NB)
37
الگوی مشورت در تست تکرار
Probability of
Consultation
خبرهی شماره 5کپی شده و
خبرهی 6به
تحت عنوان
مجموعه خبرهها در داد ه
هپاتیت افزوده شده است .در
انتهای یادگیری دیده میشود
که هر دو خبره به میزان
مساوی برای مشورت کردن
محتمل هستند
Probability of
Consultation
38
نتایج آزمایش افزودن خبرهی تکراری
• این افزونگی بر خالف روشهای رایج ترکیب تصمیم ،تاثیر
مخربی بر نتیجهی روش پیشنهادی نداشته است.
– قوام روش به چنین خطاهای زمان طراحی!
– نتایج روشهای ترکیب تصمیم ،تاثیر مستقیم این آزمایش را در
خروجی نشان میدهند.
• عامل یادگیر در ما هم با یک خبرcه و هم با کپی آن مشورت
نمیکند.
39
ودنcنتیجهیآزمایش افز
تصمیمگیرهای به طور سیستماتیک خطادار
ADFL
OWA
Borda
Count
1.9/4
76.34
(0.001)
66.3
(0.03)
1.1/5
100
(0)
59.5
(0.01)
ADFL
3.1/4
97.25
(0.0003)
k-NN on
Decision Space
Avg CCR
of LDEs
Pima Indian
Diabetes
76.6
(0.06)
75.3
(0.03)
72.3
(0.07)
64.5
Original
70.25
(0.04)
68.9
(0.08)
100
(0)
51.6
With outputinverted LDE
OWA
Borda
Count
Majority
Voting
k-NN on
Decision
Space
Description
(Avg. CCR of
LDEs)
85.5
(0)
82.5
(0.012)
75.00
(0)
95.5
(0)
Original
(97.25)
With
systematically
wrong LDE
(81.04)
Original
(89.3)
With
systematically
wrong LDE
(74.4)
1.2/5
100
(0)
65.9
(0.06)
73.7
(0.002)
62.03
(0.03)
100
(0)
3.4/5
95.02
(0.0001)
63.95
(0.01)
59.30
(0)
74.18
(0.002)
90.16
(0.0002)
1.5/6
100
(0)
52.78
(0.05)
48.72
(0.001)
63.80
(0.05)
100
(0)
Dataset
(LDEs’ Base
learner)
Dermatology
(NB)
در حالت چندکالسی
Consultat
ion Ratio
Majorit
y voting
در حالت باینری
Consultation
Ratio
Satimage
(k-NN)
40
الگوی مشورت در تست خبرهی خطاکار
41
Probability of
Consultation
در پایان یادگیری
ADFLبیشترین
خبرهی
مشورت را با
خطادار سیستماتیکی
انجام میدهد
بحث در مورد طراحی خبرههای محلی
شکست ADFL + BRSMاز Adaboostو
Bagging
مجموعههای دادهای
روی اغلب
نمونههای آموXزشی در فضای تصمیم
بررسی توزیع
(فضای تصمیمی متشکل از خبرههای محلی طراحی شده بر اساس روش BRSMکه بیش از بقیه با آنها مشورت شده
بود).
مشاهده :یک فضای تصمیم در هم که به ندرت میشد مرز تصمیم مشخصی میان نمونههای
کالسهای مختلف متصور شد.
نتیجه :بسیار دشوار است که ADFLبتواند با قراردادن گوسیها و تنظیم میانگین وX
واریانس آنها ،مرز تصمیم مشخصی در فضای تصمیم شکل بدهد و به کارایی مناسب
و مورد انتظار دست یابد.
42
بحث در مورد طراحی خبرههای محلی()2
• روش یادگیری پیوسته با بخشبندی نرم فضای ورودی ،تعدادی
هست هی گوسی در نواحی مختلف فضای یادگیری قرار میدهد.
– سپس میانگین و واریانس آنها را در طول زمان با ورود نمونههای
یادگیری جدید ،تنظیم (بهروز) میکند.
• در هم رفتگی زیاد نمونههای یادگیری باعث افزایش تعداد
هستههای گوسیمیشود و کار را دشوار و بعضا غیرممکن
میکند.
• پس باید تا حد cامکان فضای تصمیم اولیه را گرانولبندcی شده
به ADFLتحویل بدهیم.
43
شکلدهی فضای تصمیم.....
تصویر پایه اقتباس از
DHS PR book: Ch2. page
44
بحث در مورد طراحی خبرههای محلی()3
• تعریف معیاری با نام Seperability Indexبرای سنجش میزان
قابلیت خوشهبندی فضای تصمیم (مطلوبیت موردانتظار در فضای تصمیم)
• روش PKSMبر اساس بیشینه نمودن این معیار ،ویژگیها را انتخاب
مینماید.
تعداد
خوشهها
تعداد اعضاء کالس i
در خوشه j
100
) maxi (clustMemij
C
clustMem
ij
45
i 1
CN
SI
j 1
نتایج طراحی خبرههای محلی به روش PKSM
•
•
•
•
غالبا افزایش متوسط دقت خبرههای محلی و کمیت جداپذیری در فضای
تصمیم هر دو بر بهبود کارایی نهایی ADFLتاثیرگذار هستند.
بهبود متوسط دقت خبرههای محلی در اکثر موارد ،موجب جداپذیری
بهتر هم میشود ولی عکس این شرایط وجود ندارد.
به صورت تجربی مشاهده شد که ضریب همبستگی میان جداپذیری و
متوسط دقت خبرههای محلی یک عدد منفی و کوچک است.
cت
ارزcیابcیاcس :
SIیcکمcعیار پccیش
– آیا خبرههای طراحی شده (حتی با متوسط قدرت کم) به صورت بالقوه برای
ADFLمناسب هستند یا خیر؟
• معموال طراحی خبرههایی با متوسط قدرت باال در عمل دشوار است در
حالیکه افزایش جداپذیریبه مراتب عملیتر است.
46
تحقق چارچوب پیشنهادی
این رساله در:
حوزه برونخط
حوزه برخط
47
تحقق چارچوب در حوزهی برخط
( METALبرای یادگیری رباتیکی)
48
در حوزه برخط
• باز هم به دنبال حل مسئله کنترل توجه از طریق تبدیل آن به
فرم یک مسئله یادگیری ترکیب تصمیم هستیم.
• اما دادهی آموزشی نداریم:
– پس ایجاد خبرههای محلی چگونه باید باشد؟!
• قطعا در این حوزه نیازمند تعامل با محیط برای آموزش
خبرههای محلی هستیم.
49
METAL= Mixture of Experts Task & Attention
Learning
Structural
Components
Learning
Phases
TAs
TAsTAs
ACL
Expert
Advisor
FOA
Bayesian
Continuou
s RL
Evaluation
Measures
Learned
Behavior
Quality
50
METAL= Mixture of Experts Task & Attention
Learning
Structural
Components
Learning
Phases
TAs
TAsTAs
ACL
Expert
Advisor
FOA
Bayesian
Continuou
s RL
Evaluation
Measures
Learned
Behavior
Quality
51
فاز اول :یادگیری غیرفعال مبتنی بر نمایش
– خبرهی انسانی به عنوان مربی و نقاد عمل
میکند.
– ریزعامل ها
•
•
•
•
حالت محیط را به طور جزئی ادراک میکنند.
کنش مربی را حس میکنند
فیدبک محیط را دریافت میکنند.
سپس ارتباط میان این اجزاء را در ذهن خود
تقویت میکنند.
خبره ای که در هر 3
فاز نقاد است ولی
در فاز 1نقش مربی
.را هم بر عهده دارد
Environment
reward
FOA
reward
reward
TAl
reward
TA2
TA1
Expert
Advisor
– عامل مشاهدهگر کامل :
•
•
•
•
حالت را به طور کامل ادراک میکند.
کنش مربی را حس میکند.
فیدبک محیط را دریافت میکند.
سپس ارتباط میان این اجزاء را در ذهن خود
تقویت میکند.
عاملی که کل فضای ادراکی
را مشاهده می کند و درفاز 1
.و 2به کار گرفته میشود
52
Motor
Action
sTAi [O1i ,O2i ,...,Ocii ], i 1,2,...,l
ریزعاملهای داخل ذهن
ربات که هر یک بخشی از
فضای ادراکی را مشاهده
و در آن یادگیری وظیفه را
.انجام میدهند
] sFOA [sTA , sTA ,...,sTAl
2
TAi
error
*
EA
1
*
EA
QTAi (sTAi ,a ) QTAi (sTAi ,a ) TD
*
*
FOA
QFOA (sFOA ,aEA
) QFOA (sFOA ,aEA
) TDerror
METAL= Mixture of Experts Task & Attention
Learning
Structural
Components
Learning
Phases
TAs
TAsTAs
ACL
Expert
Advisor
FOA
Bayesian
Continuou
s RL
Evaluation
Measures
Learned
Behavior
Quality
53
فاز دو :یادگیری فعال اولیه
•
•
•
•
•
•
نقش خبره به صرفا یک نقاد محدود
Environment
میشود.
reward
یک مرکز ترکیب در خروجی تصمیمسازی
reward
reward
reward
این قرار میگیرد
TA
ریزعاملها و عاملمشاهدهگر کامل تصمیم
FOA
TA
حریصانهی خود را اتخاذ میکنند و آن را
به همراه درجه پشتیبانی به مرکز ترکیب
Fusion
نهایی میفرستند.
Center
تصمیم نهایی توسط مرکز ترکیب و بر
اساس ماکزیمم نمودن یک معیار خبرگی
Motor
انجام میشود.
Action
بدین ترتیب کنش انجام میشود و سیگنال
تقویت از محیط دریافت میشود.
| aTA argmax(Q(sTA , ak )),k 1,2,...,| A
k
وقتی یادگیری ریزعاملها عمگرا میشود،
|aFOA argmax(Q(sFOA, ak )),k 1,2,...,| A
عامل مشاهدهگر کامل حذف میشود و
k
ریزعاملها تبدیل به خبرههای محلی
میشوند.
))afusionargmax( p(aTA | sTA ), p(aTA | sTA ),...,p(aTA | sTA ), p(aFOA | sFOA
l
TA2
1
i
54
l
l
2
2
1
i
1
a
METAL= Mixture of Experts Task & Attention
Learning
Structural
Components
Learning
Phases
TAs
TAsTAs
ACL
Expert
Advisor
FOA
Bayesian
Continuou
s RL
Evaluation
Measures
Learned
Behavior
Quality
55
یادگیری کنترل توجه:فاز سوم
Motor Action
Environment
reward
reward
TAi
TA2
TA1
reward
Perceptual
Attention Shift
TAl
…
),
1
TA
)
A1
T
|S
A|
(a
,P
(a
P(a 1|STA i),…,P A|
|S
a1
P(
Obs
|S TA i)
Attention
Learning
Task
Learning
Decision
support of an
expert about
all actions
ACL
Motor
Action
AACL AMotor APerceptual
یک خبره را فعالسازی کند و با آن
،مشورت نماید
.یک کنش موتوری انجام بدهد
–
–
نیاز به یک روش
یادگیری پیوسته حالت
و گسسته کنش
Bayesia
n
RL
Aperceptual{ConsultTA
1, ConsultTA
2 ,...,ConsultTA
l}
sACL [(DTA1 ||null)...(DTAi ||null)...(DTAl ||null)]
توجه کردن به نظر یک نفر
،(ریزعامل) یا مشورت کردن با وی
به معنای درخواست از او بر
پردازش فضای سنسوری خودش و
ارائه نمودن تصمیم پیشنهادیاش به
. استACL عامل
دو دسته کنش کامالACL عامل
:متفاوت به لحاظ ذاتی دارد
DTAi P(actionj | sTAi )
AMotor
j 1
56
•
•
METAL= Mixture of Experts Task & Attention
Learning
Structural
Components
Learning
Phases
TAs
TAsTAs
ACL
Expert
Advisor
FOA
Bayesian
Continuou
s RL
Evaluation
Measures
Learned
Behavior
Quality
57
معیارهای ارزیابی
• از منظر یادگیری:
– پیشرفت یادگیری بر اساس متوسط پاداش دریافتی که عامل در ضمن
یادگیری به دست میآورد
– متوسط پاداش تجمعی دریافتی در حین تست
– متوسط تعداد گامهای مشاهده را که عامل در هر حالت برمیدارد
• یک کمیت نزولی در طول زمان نشانگر آن که عامل به مرور ،خبرههای دارای دانش الزم
در هر موقعیت را شناسایی نمودهاست.
• از منظر رفتاری:
– تعداد تصادفها
– نرمی مسیر رانندگی
– اتخاذ سرعت مناسب
58
تحقق چارچوب در یادگیری رانندگی
Highway Driving Skill
Not to Collide
an Obstacle
Bypassing
stalled cars
Driving in road
boundary
Passing slow cars
Approach with
good speed
Following
some rules
Keeping vehicle
inside lanes
Visio
n
IR
عدد خبره برای6
مدالیتی بینایی
59
موتوری و ادراکی:تابع پاداش
پاداش
موتوری
No
No
Yes
Yes
State
Violate Rules? (Between
Lines Driving?)
Off the Road boundary?
Collision?
Approach with inappropriate
speed?
No
Yes
Yes
IR and %Red
% off the road
bottom area of the
robot
%black,
%white,
%green and %blue
Difference between
current and max
speed
w1
w2
w3
w4
No
No
Punishment
!
Punishment
Vision cost for FOA
Costs of consulting TAs
Costs for 6 areas of Vision
Equal costs for 8 IR sensors
پاداش
ادراکی
-1
Equals with Sum of Vision costs for
TAs, That is
-11= - 2 4 - 1.5 2
-2
-1.5
-2
-2
-1.5
-2
Vision + IR cost for Fusion Center
Equals with Sum of Vision and IR costs
for TAs, That is
-12= - 2 4 - 1.5 2 - 1
60
متوسط پاداش دریافتی ضمن یادگیری
-10
FOA
Fu si ng t he Dec i s i ons(Ph as e II)
ACL(Pha se III)
To t a l Ac c u m u l a t e d Re wa rd
-12
-14
-16
-18
-20
-22
0
200
400
600
epi sode
800
1000
1200
61
متوسط تعداد گامهای برداشته شده ضمن یادگیری
62
Percent of Bins of Perceptual Steps
Selected by ACL
با تکمیل شدن روند
یادگیری ،گامها
حسابشدهتر برداشته
.میشوند
رانندگی بر اساس چارچوب METAL
63
جمعبندی :یادآوری دیدگاه پیشنهادی
تعریف یک مسئله
یادگیری در فضای
ادراکی چندبعدی
ایدهی توجه :انتخاب
ترتیبی و بر اساس
موقعیت و با کنترل
هزینه
بینش
(Intuitio
)n
+
طراح خبره
طراحی جمع خبرگان
یادگیری
Attentive Decision
Fusion
64
1
3
2
65
نتیجهگیری بر اساس ایدهی اصلی
•
از منظر ترکیب تصمیم
– یادگیری ترتیب مناسب مشورت با تصمیمگیرهای محلی به ازاء موقعیتهای مختلف
– یادگیری سیاست مشورتی به گونهای محلی به جای یادگیری یک استراتژی مشوXرت یکسان روی کل
فضای تصمیم
• این ویژگی به ویژه وقتی تصمیمگیری در زیرفضاها از تصمیمگیری در فضای اولیه به گونهی
دقیقتری امکانپذیر باشد ،خیلی مطلوب است.
• ویژگی "محلی عمل نمودن" در فضای تصمیم ،دستی طراحی نمیشود بلکه یاد گرفته میشود.
– ایجاد یک درجهی آزادی در طراحی تصمیمگیرهای محلی :کافی است تنها در بخشی از فضای داده به
خوبی عمل نمایند.
از منظر توجه
– کمینه نمودن هزین ه و تعداد مشورتها و یافتن تصمیمگیرهای مطلعتر
– به صورت ترتیبی و بر اساس موقعیت
•
از منظر کاربرد
– یک سیستم یادگیرندهی پشتیبان تصمیم با کاربرد در هر دو حوزهی برخط و برونخط
از یک منظر پژوهشی نسبتا متفاوت
– ارائه ایدههایی در مورد ساختن تدریجی درخت تصمیم به کمک یادگیری تقویتی
•
•
66
بازگشت
نتیجهگیری از تحقق در حوزه برونخط
•
•
•
•
•
کارایی مناسب در مواجهه با رقبای شناخته شدهی حوزه ویژگی و تصمیم
قابلیت یادگیری انتخابی/توجهی ترکیب تدریجی تصمیم (در مقایسه با روشهای
استاتیک که از همهی ورودیها استفاده میکنند).
قابلیت بهره گیری از طبقهبندهای محلی که لزوما هم خیلی خوب طراحXی
نشدهاند.
توانایی مدیریت برخی خطاهای رایج زمان طراحی (از قبیل تکرار یک خبره در
مجموعهی خبرگان که موجب اعمال نظر مضاعف میشود و نیز خبرههایی که به
صورت هدفمند نظر خطادار اعالم مینمایند) و انتخاب بهترین عکسالعمل در
قبال آنها.
توانایی در اختیار قرار دادن نحوهی رسیدن به جواب بهینه عالوه بر اینکه خود
پاسخ نهایی را هم در اختیار فرد تصمیمگیر قرار میدهد.
بازگشت
67
محدودیتهای بهکارگیری در حوزه برونخط
• اگر با یک مسئله تصمیمگیری سروکار داریم که در مورد آن ،نظرات
خبرههای گوناگون وجود دارد
• یا به سادگی میتوان نظرات این خبرهها را تهیه یا شبیهسازی نمود
– با تقسیم ویژگیها بر اسXاس BRSMیا PKSMخبره های ضعیف
ایجاد نمیگردد
• یعنی SIرا بتوان تا حد مناسبی افزایش داد که فضای تصمیم مناسب ،قابل ایجاد
باشد
• نحوهی ترکیب مناسب این تصمیمها برای تصمیمگیری نهایی معلوم
نبوده ،استفاده از همهی آنها هم هزینهبر باشد
• هدف ،کاهش هزینهی تصمیمسازی بوده ،تحقق این کاهش هزینه از
طریق مشورت با خبرهها پذیرفتنی باشد
بازگشت
68
گامهای آتی برای ادامه کار در حوزه برونخط
• ارائه روشهای کارآمدتر برای ساختن طبقهبندهای محلی
• آزمودن کارآمدی این روش در مسئلهی یادگیری چندین
هستهای
– چون در روشهای مبتنی بر Kernelمثل SVMهدف آن اسXت
که جداسازی در فضای با بعد باالتر ولی جداپذیر خطی صورت
بگیرد ،شاید این روش جایگزین خوبی برای جداپذیر نمودنی که
الزمه کار است ،باشد.
• تشکیل ساختار درختی ترکیب تصمیم با هدف نشان دادن برتری
این روش بر روشهایی که در تشکیل درخت ،تنها نگاهی به
سودمندی هر گام در شکاندن فضای ادراکی دارند (مانند Entropy-
)based measure of impurity
بازگشت
69
نتیجهگیری از تحقق در حوزه برخط
•
•
•
•
•
•
70
توزیXع نمودن دشواری یادگیری در فازهای متوالXی :بار اصXلی یادگیری وظیفه در
فاز اول و دوم ،بار اصلی یادگیری کنترل توجه در فاز سوم.
توانایXی یادگیری در یXک فضای جXایگزیXن و مناسXب بXه جای فضای ادراکی
چندبعدی اولیXه بXا ویژگیهایXی از قبیXل توانایXی اسXتفاده از دانش خبرههای
متفاوت ،احتمال بدنمایXی کXم و بXا ابعادی کXه بیXش از ابعاد نسXخه معادل ادراکی
قابل کنترل است.
توانایی نادیده گرفتن ابعاد نامرتبط به وظیفه در هر وضعیت
یادگیری انجام وظیفهی رانندگXی بXا تعداد محدودی شیفXت توجXه در یک فضای
پیوسته حالت که نمونهای از وظایف رباتیکی دنیای واقعی است
ارائهی یXک راهکار نمونXه برای تعریXف سXلسه مراتبXی تابXع پاداش برای کاهش
حداکثری ابهام در یادگیری یک وظیفهی متنوع به لحاظ عملکردی
ارائهی یک راهکار نمونه برای طراحی عاملهای یادگیر یک وظیفهی رباتیکی
بازگشت
هدف از”ارزیابی میزان بدنمایی“
• با محاسبه حد باالی احتمال رخداد بدنمایی در فضای تصمیم نشان
دادیم که با انتقال به فضای تصمیم ،بر خالف cتصور احتمالی،
احتمال بروز بدنمایی را افزایش ندادهایم.
• نحوه محاسبه:
–
–
–
71
جزئیات بیشتر در
صورت لزوم
–
–
مساوی قرار دادن مختصات دو نقطه در فضای تصمیم
تفکیک معادله به اجزاء سازندهاش و تقریب کمیتهای پیوسته با
کمیتهای گسسته متناظر
فرمولبندی مسئله ”احتمال بروز این تساوی“ در قالب یک مسئله آنالیز
ترکیبی معادل
پیدا کردن پاسخ به یک فرم بسته بازگشتی
بررسی صحت فرم بسته به کمک روش تکرار زیاد به صورت عددی
محدودیتهای بهکارگیری در حوزهی برخط
•
•
•
•
•
•
اگر با یک مسئلهی یادگیری رباتی مواجه هستیم که فضای ادراکی آن
چندبعدی است
اگر استفاده از کل فضای ادراکی به یکباره برای یادگیری ربات بسیار
پرهزینه باشد،
شهای ربات قابل گسستهسازی و در مقایسه با ابعاد
اگر فضای کن
فضای ادراکی بسیار محدودتر باشد
اگر طراحی تابع پاداش به صورتی ترجیحا سلسلهمراتبی شدنی باشد
اگر یادگیری در زیرفضاهای جداگانه به دلیل بدنمایی ذاتی شدید ،با
مشکل عدم همگرایی مواجه نباشد
اگر بعد فضای تصمیم (حاصلضرب بعد فضای کنشهای ربات در
تعداد خبرههای محلی) با توجه به روش یادگیری پیوستهای که بهکار
گرفتهمیشود ،پذیرفتنی باشد.
بازگشت
72
گامهای آتی برای ادامه کار در حوزه برخط
•
•
•
•
73
یافتن یک فضای فشردهتر به جای بازنمایی کنونی فضای
تصمیم
بخشبندی و یافتن خوشههایی به صورت اتوماتیک در فضای
ادراکXی به جای خبرههایی که در این روش به صورت دستی
و بر اساس قواعد یافتهای طرXاحی شدند.
اعمال روش در یک وظیفهی دیگر به گونهای که نیاز به در
نظر گرفتن مشاهدات گذشته نیز موجود باشد
استفاده از تکنیکهای انتقال دانش قبال یادگرفته شده برای
سرعت بخشیدن به فرایند یادگیری
بار دیگر
از Attentionشما متشکرم!
74
75
آقای محمدحسن
ذکائی:
بحثهای مفید در
مورد مباحث
مرتبط به یادگیری
76
آقای آرش آرامی:
بحثهای مفید در
مورد توجه
آقای محمد
اجللوئیان:
ویرایش مقاالت و
بحثهای مفید در
مورد توجه
خانم نرگس نوری:
بحثهای مفید در
مورد توجه
آقای محمدافشار:
طراحی واسط
WEBOTSو
MATLAB
آقای هادی فیروزی:
طFراحی روش
Bayesian RL