صفحه 1:
fobolab:
ارائهی چارچوبی برای یاد گیری کنترل توجه
در وظایف با فضای ادراکی چندبعدی
مریم سادات میریان
اساتيد راهنصا: دکترمجید نیلی, دکتر بابک نجار اعرابی
صفحه 2:
استاد مشاور
صفحه 3:
00011 فهر ست مطا لت
* مقدمه
* اهميت و انكيزه
7 پرداختن به کنترل توجه (در حالت کلی)
پژوهش (به طور خاص)
نوآوریها در قالب یک شبکهی مفهومی با گذار از حوزههای مرت
پیشنهادی
تحقق در حوزهی برخط
چارچوب
<- تحقق در حوزهی بر
جمعبندی و نتیجهگیری
پیشنهادهایی برای ادامهی این پژوهش
صفحه 4:
robolab' مقدمه: کنترل توحه جیست؟
* روانشناسی
- کنترل نمودن روند تفکر بر یکی از چندین موضوع یا شیتی که به طور
همزمان ممکن است ذهن را مشغول نماید.
- بریدن از چیزهایی برای پرداختن موثرتر به چیزهای دیگر.
متسین
فیلتر نمودن فضای ورودی به گونهای که بر چیزی که در فرایند تصمیمگیری
ارزش بیشتری دارد. متمرکز شویم.
- ایجاد ارزش/اهمیت کمتر برای ورودیهای گمراهکننده» غیرقابل اتکاء و
نويزى
صفحه 5:
Be اهمیت پرداختن به کنترل توجه
* هرجا نیاز به تصمیمگیری
— در زمان محدود
7 با هزینهی مشخص
> بر اساس اطلاعات انبوه
باشد نیاز به روشی است که به نوعی از میان منابع اطلاعاتی موجود.
زیرمجموعهی مناسبتر را برگزیند.
* تعابیر متفاوت ولی مرتبط به توجه در مهندسی:
- يالايش یا فیلترینگ
- انتخاب حسگر
7 کاهش بعد
sont
صفحه 6:
Be اهمیت و انگیزهی کنترل توجه ادراکی
fobolab: (در حالت معمول)
* حل مشکل محدودیت زمان و توان پردازشی
۰ حل مشکل پیچیدگی فضای حاصل از ادراک همزمان تمامی ابعاد
سنسورهای ورودی
* حل مشكل ابهام به دلیل اطلاعات انبوه سنسوری
* راهى برای کارآمدتر نمودن حل مسئلهی تصمیمگیری
- کاهش بعد فضای ادراکی ربات
کاهش نیاز به حافظه برای ذخیرهی مشاهدات غیرضروری
- سادهتر شدن مدلی که ربات برای انجام وظیفه باید از محیط بسازد
صفحه 7:
و اسبت ری بادگیریکترل توب
fobolab:
(در حالت معمول)
* اينكه ”به چه/کجا نگاه کنیم؟" و اينکه "در پاسخ به مشاهدهی
انجام شده. جه كنشى انجام بدهيم؟“ به يكديكر تافته شدهاند.
زیرمسئلهی اول در خدمت دومی است! (با مدف تسهیل و کاهش بار مسئلی دوم)
iit) G2
> سم
look?
صفحه 8:
Be اهمیت 3 انگیزهی اين پژوهش:
۳ یادگیری کنترل توجه در فضای تصمیم
* اينکه "با چه کسی مشورت کنیم؟" و اینکه "در پاسخ به مشورت
دریافتی, چه کنشی انجام بدهیم؟" به یکدیگر تافته شدهاند.
مشورت ها به صورت ترتیبی انجام میشوند.
- سطوح و ناحیهی خبرگی ها متفاوت هستند.
4 i
What to do? ۷۵۰ ed
ل
صفحه 9:
3 ایدهی اصلی چارچوب
* تقسیم مسئلهی اصلی به زیرمسئلههای یادگیری
کوچکتر و سپس یادگیری نحوه برهمنهی نتایج:
* یادگیری انجام وظیفه در زیرفضاهای ادراکی سادهتر به
صورت موازی توسط ماشینهای یادگیر سادهتر
* یادگیری کنترل توجه با تعبیر یادگیری مشورت با همین
ماشینهای Sok سادهتر در فضای تصمیم
4
صفحه 10:
1 ياد كيرى در فضاى ادراكى جندبعدى AP
۲ robolab
(در حالت معمول)
فضای ادراکی جندبعدی ۱
كدام ستسور؟ و
دام کنشو
۱
نظر اتصميم اكنش تهايى
صفحه 11:
ل ساد سه یکین دی در ان سا (ST)
جص فضای ادراکی چندبعدی
د اه
۸ كم
يبدا
۳ بعد كمتر - ES
Sey a ¥
1
Perceptual
pace
د
بعد
7
5 5 4 8 1
صفحه 12:
۱ سوال كنترل توجه: ادراكى يا تصمیم؟!
* یادگیری کنترل توجه در
فضای ادراکی
اگر ما حداکثر 1 حسگر (يا در حالت کلی 1
موقعیت مکانی/شبیء مثلا در داعل یک
مانند بینایی) داشته باشیم که به کمک
انوا موقدت با حالت قفا وا دراک نماییم.
به ازای هر موقعیت_کدامین 11 بیش از بقیه هم
به لحاظ اطلاعانی مفیدتر است و هم به لحاظ
اقتصادی به صرفهتر است که استفاده شود؟
*_یادگیری کنترل توجه در فضای
تصمیم
به جای (] تا حسگر, در واقع | عدد خبره
داریم
صفحه 13:
* هدف این پژوهش ارائهی یک راهحل بکپارچه است برای حل مسئلهی Attentive
Decision Fusion ولی در در حوزه مختلف برای طراحی جمع خبرگان :
* برخط در کازبردهای وباتیگی
* برونخط در کاربردهای شناسایی الگو
صفحه 14:
Be اهمیت و انگیزهی این پژوهش:
fobolab جرا یادگیری؟
* یادگیری تنها اه حل ممکن ااست وقتیراه حل
بهینهی یک مسئله را در حالت کلی نمیدانیم
*مدل محیط و سیگنال دقیق خطا را نداریم
*مفاهدهسایی که ربانتو ظراعشن هر كدام:در محيظ
انجام میدهند. متفاوت است
صفحه 15:
Be اهمیت و انگیزهی اين پژوهش
ig fobolab: نوع یادگیری؟
* یک روش یادگیری در تعامل با محیط
* یک روش يادكيرى فقط براساس يك ارزيابى غير مستقيم از عملكرد
* يك روش يادكيرى كه قابليت وارد كردن هزينه براى هر كنش عامل
را داشته باشد تا در مجموع كل هزينه را بتوان كنترل كرد.
صفحه 16:
020 چرا روش توجهی برای ترکیب تصمیم؟!
* هزینه بر و طولانی بودن استخراج تمامی اطلاعات لازم برای
یک تصمیمگیری جامع
* نیاز به پردازش اطلاعات انبوه و مشورتهای متعدد با افراد
خبره برای اتخاذ یک تصمیم منطقی
* در مسائل تشخیص (پزشکی). مشورت با یک خبره(پزشک)
متخصص جدید. نیازمند فراهم کردن اطلاعات(انجام
آزمایشهای) جدید است؛ چرا که هر خبره (پزشک) ممکن
است از منظری خاص به یک مسئله (بیماری) واحد بنگرد.
* پس به کمک ایدهی توجه اين فرایند را تسهیل میکنیم.
صفحه 17:
0 چالشهای حوزهی ترکیب تصمیم چیست؟
دانش یک فرد خبره و حوزهی خبرگی وی در حالت کلی بر روی حوزهی
مسئله. معمولا ناکامل و نایکنواست.
* بسیار محتمل است که پیشنهادهای یک خبره روی کل فضای مسئله ناکامل
باشد
پيشنهادها در مورد برحی پرسشهایی که در حوزهی خبرگی وی واقع
نشوند. برای وی گمراهکننده و حتی ابهامبرانگیز هستند.
منطقی نیست که ابتدا همهی مشورتها را به صورت یکجا انجام دهیم و
سپس به یکباره و بر اساس کل آنها؛ اقدام به تصمیمگیری نماییم.
بنابراين لازم است كه به صورت ترتیبی و بر اساس انتخابی هوشمندانه
و با توجه به میزان سودمندی نظر هر خبره. اقدام به انتخاب توجهی
خبرهها کنیم!
صفحه 18:
صفحه 19:
fobolab:
META
1
صفحه 20:
fobolab|
مدلسازئ
يادكيرى Attentive Decision Fusion
به عنوان یک مسئلهی
یادگیری تعاملی
صفحه 21:
00010
Je, (Fil de selected experts so far
s=[ss,..5)]5,
Oe otherwise
aeA4A=TUD
x = Pr(als)
Decision support of an كت
expert about all actions
22
صفحه 22:
0۳
مولفههای کلیدی MDP مفروضس
= the initial state of ADEL agent before consulting any LDE
=O.
aa
|») 7ل بكر selected experts مد far
۳ otherwise
> ره ره یدرد
م04
۱۳) =d;| f)Prid,, =
!= the number of LDEs
o= |D| = the size of the decision actions
if a=d,<D=s € Terminal state
High Positive, ifa= Correct Decisio
r= High Negative, ifa= Wrong Decision= D
r= (Small Negative) x (number of already consulted experts), ifa=T
State (S)
Actions
(4)
‘Transition
Function
(Iran)
Reward
Function
6
صفحه 23:
fobolab:
تحقق چارچوب پیشنهادی
اين رساله در:
i حوزه برونخط
١ حوزه برخحط
صفحه 24:
fobolab:
تحقق چارچوب
در حوزهی برون خط
صفحه 25:
رگیری |۸10۳ در حوزه برون خط
دادهی آزمون قابلاتکائی برای محکزنی مسئلهی ترکیب تصمیم
نداریم.
پس طبقهبندی و تشخیص را انتخاب کردیم» چون:
— طبقهبندی وظیفهی مناسبی برای آزمودن یک روش تصمیم گیری از جنس
ترکیب تصمیم به نظر میرسد.
- خبرههای محلی که نیاز داریم را میتوانیم به سادگی با طبقهبندهای محلی
جایگزین نماييم.
- با انتخاب طبقهبندی به عنوان وظیفهی محک. میتوانيم روش خود را با
روشهای شناخته شدهی این حوزه مقایسه نماییم.
اما بدين ترتیب. خبرهها را هم بايد خودمان بسازیم!
صفحه 26:
fobolab:
ساختن خبرهها: چند فرصت و یک تهديد!
فرصتها:
- روش ما به یک آلترناتیو برای محکزنی با روشهای شناختهشدهی حوزه
طبقهبندی تبدیل میشود
IIL در حوزهی پيشنهاد و تست روشهایی برای طراحی خبرگان هم
به عنوان یک :>1ا0۲00- 2۷ وارد میشویم.
* ورود به حوزهی شناسایی الگو و شکلدهی فضای جایگزین یادگیری و
یک طراحی مناسب برای خبرگان ساده نیست: اگر خبرهها را از قبل
داشتیم. صرفا برای مشورت با آنها هزینه لحاظ میکردیم و نظر آنها را در
هر مورد بنا به روش خود به صورت ترتیبی ترکیب میکردیم و..
صفحه 27:
robolab طراحی خبرهها با هدف ایجاد تنوع
885 ۰۳ ۳
صفحه 28:
wLDE . طراح «i, BRSM سیاست
Tho sot of features: F robolab
Number of Experts
2 7
روشی برای ایجاد یک طراحی سریع» و
هیا موه مق مدای
aula ی
Pa eee
ما کار sales ae
ed Sees pots
2
Number of Classifiers Dis
NomboratFootres per Clssiber =
ibe
1
a
a
Fe
eee
1
‘Make [bins of sorted features;
feach contains fpc features.
ساده و طبعا تصادفی(البته به صورت متوازن)
Balanced Random Sub-space
Metod
=
Randomly select fc
features from these I bins
to assign to the feature
subspace of local experts.
‘diffrent portions of feature space:
Fe by
We
صفحه 29:
یواست ۳۱5 برای
طراحی 00اه
نوزیع ویژگیهای کمهزینه میان
اولویت دادن به طراحی که ویژگیهای
ر
پرهزینه را به تعداد محدودی از خبرهها
منتسب نماید بر طراحی دیگری که بدون
توجه به هزینهی لازم برای به دست آوردن
هر ویژگی, آنها را به صورت یکنواخت و بر
اساس تمادف مان همهی ماش
وده
“The sot of features: F Number of
Classes - 6
م
Divide the features into two
groups: expensive and inexpensive
موه تم له ها هه موه له دون
4
Randomly distribute the expensive
features among local experts
1
‘Map all the training instances to the Decision
Space Using the decision of each local expert
+
7
GlustMem, = number of
‘members of class jin
the cluster j
TERY] وو
dustMem, 3
Yes 3
تین
‘We have / different portions of feature
space: fy. f,called cls(i).F where
Pre-Knowledge based Sun-sapce Method
صفحه 30:
fobolab| دادهها و روشهای محک
* دادهها
> يازده داددى انتخا
روشهای فضاء
- یک طبقهبند NN دز ر فضای ویژگی
< روش Bagging
— روش ۸050005۲
UCI ML Repository از مجموعه دادههای
ژثیهای فضنای تصعین:
یک طبقهبند ۲-۱ در فضای تصمیم
- روشهاى تركيب تصمیم
چسب خروجی: روش رایگیری اکثریت
رتبی تصمیمهای خروجی: روش Borda-count
صفحه 31:
fobolab:
کارایی: متوسط نرخ تشخیص «در ه بار اجرا) روی دادهی
آزمون
قوام نسبت به نحوهی تفکیک ویژگیها: واریانس نرخ
تشخیص «در ه بار اجر) روی دادهی آزمون
نسبت مشورت
anc سس
مه
als
صفحه 32:
9 ADFL+BRSM: suc 5
*_ شکست رقبای ترکیب تصمیمی خود از لحاظ نرخ تشخیص eld
- حتی در میاردی که نرخ تشخیص هر خبره به صورت محلی پایین است.
* مشورت هوشمندانه ۸۸0۳1 بعد از آموزش در هر حالت فقط با خبرگانی که سودمند تشخیص
داده شدهاند (چانکه نت مشورت نشان میدهد)
*_ در مورد برخی داده ها شکست از Bagging , Adaboost
Sectors |] کچ له وه
كه | د | حصي ]امه | es |e || om | we | me fel
a =e Er aa اد ¥
سر یه | سید de ©
si ts [ eon
Ee (0005 0.00) نیا 9 م | سيم
صفحه 33:
+PKSM ADFL; slic _
* ازایش معناداز ترج تشخیصی نهایی بر روشهای رقیب هم در دستهی ترکیب تصمیم و هم
Bagging , Adaboost
واریانس کم در نرخ تشخیص نهایی
- قوام نبت به چگونگی شکست کل دادهبه مجموعههای آموزش و آزمون و نیز شکست مجموعهی ویژگیها میان
خبرههای مختلف
* _لزوم حداقل درکی از معنای ویژگیها!
م ماه سوت مهن
Ecemble z اهلاس Fron Metods كمومه
ww | 2 ههد con se Algor
wa | جم سل مه | یه | که
٩ | ۲۶
as Ps as a ۳
om | oo | eo» | 0 | eon ۳
5 او | 7 Pa هو
coon | coo | 08, | oor, a as a oo | EF | وس | تاد
Pa من روم
Dacian Sane Meo Fea Sac Metts
3 ممع قوست Metis نیج اه
“aoa wn | 2 ميم | ase grit 6
295 | 6 | 5م NW ]مدمه هه | میت | Com
pa | وت vst
as | sm | a 1 0 ود
oon, | @ | sav | coon
فد | یی ]ود هل[ كلد
007 ند 595 a on )0.001( )0.04 } )0.03( ,)0.08 )0.005(
830 | هم a9
oon | aon | oon | con | cos 7
صفحه 34:
آزمون علامت(95]). ویلک و کسون (0۷) و (01) ] میان
11 5 + 1 هال بر اساس بهترين طبقهبند يايه و روشهاى رقيب
Fusion(Be Ensemble(B Adaboost+k Adaboost+S ظدووتمو+ا-
vM NN
sts) ests) -NN
100/1 7/2/2 11/0/0 2/1 902 Win/draw/loss
‘ps=0.0009
w=0.0009 نك
pt=0 pt=0.0123 _pt=0.0068 st
515101 +811 با بهترين15 1.5 ها امستقاز نوع الكوريتم يادكيرىئيليم) :
از بهترین روشهای رقیب در دسته روشهای اجماع خبرگان با ٩۰ درصد اطمینان و
6
از بهترین روشهای رقیب در دستهی ترکیب تصمیم با ۹۵درصد اطمینان, بهتر عمل مى كند.
صفحه 35:
fobolab معیارهای ارزیابی تکمیلی
* قوام نسبت به ۲ گونهی مختلف از خطاهای زمان طراحی
خبرگان
- خبرهاى كه در حالت بايئرى» صد در صد و در حالت حندكلاسه با
الگوی مشخصی به طور هدفمندی اشتباه میکند.
- خبره ای که نظر تکراری ارائه مینماید. ۱ ات
ey |
صفحه 36:
obo
تست خبرههای تکراری rr
ERN os | Bescon] Dataset
mst ows | مس ون | سم | ممم | عي | (ame ase
Space| toes inane)
۳77 سوه
ie (0.03) | (0.06) (0.03) (0.07) (64.5)
With duplicated Diabetes:
uae soa | na | soa | sea cup a) é
eon | oon | 09 | eon | BE G.
66.6 713 200 Original, 3
Be (0.003) (0.02) (0.05) (0.02) 71.2) Hepatitis 8
سره
وه هه | 45 evn)
aa ددم | دمم J7200 | DE
ire
ENN on] Deserption | — Dataset
امه Borda
تالضع | spre | own | ۳ سدس | Decision | مهس | کت وه | 4
Space LDEs) learner) 2
0 55 | 554 551 0 —| Ona
هه | مهم | ما “os (615) هه 7
ue هجو | هجو لسویوی |S
5نم | won | هم همم E
rs) .
saa] esa [7500 J] —aa3 | — Orginal
gue 4رد 2 (۵8 و (0.001) (74.5) ‘Wavetocn
وري | 2250 | 7102 | osas | 7505 [oso | ۳۳| ون
@.00 | (002 | won | coe | coo | dre
صفحه 37:
ای یادگیری د؛
که هر دو خبره
صفحه 38:
سس
نتایج آزمایش افزودن خبرهی تکراری rr
* این افزونگی بر خلاف روشهای رایج ترکیب تصمیم تاثير
مخربی بر نتیجهی روش پیشنهادی نداشته است.
- قوام روش به چنین خطاهای زمان طراحی!
نتایج روشهای ترکیب تصمیم. تاثیر مستقیم این آزمایش را در
خروجی نشان میدهند.
° عامل یادگیر در ما هم با یک خبیه و هم با کپی آن مشورت
نمی کند.
صفحه 39:
5 نتيجه يآزمايش افنودن 1 وو
تصمیم گیرهای به طور سیستماتیک خطادار ۴
Pima indian | عع وعد | نهد a | Borda | Majorit] هو
Ratio ADFL | OWA | “count _[y-voting | Decision Space | of LDEs Diabetes 8
x 72.3 75.3 76.6 66.3
ب 5 66
sas gia
sae (0.03) (0.06) (0.03) (0.07) Cacia 1
8
withoutput | © |« 100 689 | 7025 | وود
iG (0.01)} (0.04) (0.08) (0) 51.6 |
2 ۳
Description | Dataset ] مهد
Consuttat.| pez | own | Borda |Malority | Decision | (Avg. CcRot | (LDEs’ Base
Space LDEs) learner) 0
gia ۳۳2۹۱۳۰5۵ | 25 | 7506 | 955 Original ۹
7 )9725( )© ۵ | تمت | © دوه
With Dermatstony |
4 هم مسمس | مد | مه | 7:7 | tas |\200 J] o50
با ‘wrong LDE )0( )0.03( | )0.002( |_ )0.06( )0
۶ )21.08(
ع gas |/2502\) 25 | 5930 | 721۵ | 8 Original
fo.coon}| oor | “to | 00m | 0.0002) (a9)
with Satimage
systematicaty | GeNN) | 100 } 6380 | 43.72 | 5278 \]/ 100
‘wrong LDE ۳ 0 بمب dishes
)74.4(
صفحه 40:
صفحه 41:
بحث در مورد طراحی خبرههای محلی
3 Adaboost شكت 885۱ + ۸۵0۴۱ از robolab
Bagging
روی اغلب مج [های دادهای
بررسی توزیع نمونههای آمیزشی در فضای تصمیم
(فضای تصمیمی متشکل از خبرههای محلی طراحی شده بر اساس روش BRSM که پیش از بقیه با آنها مشورت شده
مشاهده: یک فضای تصمیم در هم که به ندرت میشد مرز تصمیم مشخصی میان نمونههای
کلاسهای مختلف متصور شد.
: بسیار دشوار است كه 810151 بتواند با قراردادن گوسیها و تنظیم میانگین و
واریانس آنها. مرز تصمیم مشخصی در فضای تصمیم شکل بدهد و به کارایی مناسب
و مورد انتظار دست یابد.
صفحه 42:
fobolab:
هستهی گوسی در نواحی مختلف فضای یادگیری قرار میدهد.
- سپس میانگین و واریانس آنها را در طول زمان با ورود نمونههای
یادگیری جدید. تنظیم (بهروز) میکند.
9 در هم رفتگی زیاد نمونههای یادگیری باعث افزایش تعداد
هستههای گوسیمیشود و کار را دشوار و بعضا غیرممکن
میکند.
* يس باید تا حد امکان فضای تصمیم اولیه را گرانولبندی شده
به 80 تحریل eau
صفحه 43:
و و و و ها دهی
robolab شکلدهی
DHS PR book: Ch2. page 6 44
pcr
صفحه 44:
5 بحث در مورد طراحی خبرههای محلی(۳)
* تعریف معیاری با نام ۱۳06 5606۲301][6۷برای سنجش Ole
قابلیت خوشهبندی فضای تصمیم (مطلوبیت موردانتظار در فضای تصمیم)
* روش 6۷ بر اساس بیشینه نمودن این معیار, ویژگیها را انتخاب
مینماید.
صفحه 45:
robolab
نتایج طراحی خبرههای محلی به روش KSM
* غالبا افزایش متوسط دقت خبرههای محلی و کمیت جداپذیری در فضای
تصمیم هر دو بر بهبود کارایی نهایی ۸٩10۳1 تاثیرگذار هستند.
بهبود متوسط دقت خبرههای محلی در اکثر موارد موجب جداپذیری
بهتر هم میشود ولی عکس این شرایط وجود ندارد.
* به صورت تجربی مشاهده شد که ضریب همبستگی میان جداپذیری و
متوسط دقت خبرههای محلی یک عدد منفی و کوچک است.
bea SI * بيثارنياييلست
UT خبرههای طراحی شده (حتی با متوسط قدرت کم) به صورت بالقوه برای
ا۸۸2۲ مناسب هستند یا خیر؟
۰
معمولا طراحی خبرههایی با متوسط قدرت بالا در عمل دشوار است در
حالیکه افزایش جداپذیری به مراتب عملیتر است.
صفحه 46:
5 تحقق چارچوب پیشنهادی
fobolab
اين رساله در:
v حوزه برون خط
۳ حوزه برخط
2
صفحه 47:
fobolab:
تحقق چارچوب در حوزهی برخط
(Sits 6 Seb cl, METAL)
صفحه 48:
001010 در حوزه برخط
* باز هم به دنبال حل مسئله کنترل توجه از طریق تبدیل آن به
فرم یک مسئله یادگیری ترکیب تصمیم هستیم.
Goals Lh آموزشی نداریم:
پس ایجاد خبرههای محلی چگونه باید باشد؟!
* قطعا در این حوزه نیازمند تعامل با محیط برای آموزش
خبرههای محلی هستیم.
صفحه 49:
Mixture of Experts Task & Attentié® امع
on
Learning
Structural
Learning
ا ل سس Phases.
(==.
صفحه 50:
Mixture of Experts Task & Attenti امع
Learning
Structural
Learning
sles Phases.
(==,
Lona
Behavior
Quality
صفحه 51:
- خبرهی انسانی به عنوان مربی و نقاد عمل
میکند.
- ریزعامل ها
0
به (Sry +4) =Qry, (Sra, (+
Qe (Sra Fes) =Qraa Sra» Aen) + TDs
صفحه 52:
Mixture of Experts Task & Attentié® امع
on
Learning
Structural
Learning
manna Phases.
و ==={
صفحه 53:
fobolab:
یک مرکز ترکیب د
بين قرار مى كير
ريزعاملها و عامل مشاهدكر كامل تصميم
حريصائهى خحود را اتخاذ مكنند وآ
به همراه درجه بشتيبائى به مركز تركيب
نهایی میفرستند.
تصمیم نهایی توسط مرکز ترکیب و بر
اساس ماکزیمم نمودن يك معيار خبرگی
انجام مىشود.
بدین ترتیب کیش انجام میشود و سيكنال
تقویت از محیط دریافت میشود
وقتی Sth
ریزعاملها تبدیل به خبرههای محلی
میشوند.
54
يزغاملها عمكرا مى شوف.
عامل مشاهدهگر کامل حذف میشود و 1۳
Action
py =argMaxAs,,,4,)),K=12,...] Al
Aron =ATMAX A Soy 4), K=L,
ارم ,رک .رک هعرج
صفحه 54:
Mixture of Experts Task & Attention امع
Learning
Structural
Learning
صفحه 55:
فاز سوم: یادگیری کنترل تو
توجه کردن بهنظر یک تفر
2
Decision
support of an
expert about
Aue. =Abtiar موسیگ لا
Avorcoptuar (Consult TAConsult TA.. Consult Tp
مالعا .ما .لها رت ی
صفحه 56:
Mixture of Experts Task & Attenti امع
Learning
Structural
Learning
Phases -_--------------, وس
۰
Passive Demonstration-based Learning ‘
1
1
۱
1
0
Bayesian
Continuo Attention Control Learning 1
23 1
7
Evaluation
ع دب
مگ
Behavior
Quality
merge
صفحه 57:
fobolab معیارهای ارزیابی
* از منظر یادگیری:
فت یادگیری بر اساس متوسط پاداش دریافتی که عامل در ضمن
یادگیری به دست میآورد
- متوسط پاداش تجمعی دریافتی در حين تست
- متوسط تعداد كا مهائ مشياهذه را كه عامل دن هن جالت يز ارد
ان نشانگر آن که عامل به مرو خبرههای
باست.
* یک کمیت نزولی در طو
در هر موقعیت را شناسایی
* از منظر رفتاری:
- تعداد تصادفها mo
نرمی مسیر رانندگی cS
> اتخاذ سرعت مناسب
انش لازم
صفحه 58:
fobolab:
تحقق چارچوب در یادگیری رانندگی
صفحه 59:
صفحه 60:
ت۵۵ متوسط پاداش دریافتی ضمن یادگیری
0
© aD ۳ 0 مه 0۳ en
سس
صفحه 61:
ف ©
متوسط تعداد گامهای برداشته شده ضمن ناد گیری
Percent of Bins of Perceptual Steps
Selected by ACL
صفحه 62:
fobolab
63
صفحه 63:
fobolab:
یادگیری
Attentive Decision
Fusion
صفحه 64:
صفحه 65:
obo
تتیچه گیری بر آساتی آیدهی Shy
از منظر 52
- یادگیری ترتیب مناسب مشورت با تصمیم گیرهای محلی به
- یادگیری سیاست مشورتی به گونهای محلی به جای یادگیری یک استراتژی مشورت یکسان روی کل
فضای تصمیم
* این ویژگی به ویژه وقتی تصمیمگیری در زیرفضاها از تصمیمگیری در فضای اولیه به گونهی
دقیقتری امکانپذیرباشد. خیلی مطلوب است.
ویژگی "محلی عمل نمودن" در فضای تصمیم. دستی طراحی نمیشود بلكه ياد گرفته میشود.
- ایجاد یک درجهی آزادی در طراحی تصمیم گیرهای محلی: کافی است تنها در بخشی از فضای داده به
- کمینه نمودن هزینه و تعداد مشورتها و یافتن تصمیمگیرهای مطلعتر
"7 به صورت ترتیبی و بر اساس موقعیت
از منظر کاربرد
- یک سیستم یادگیرندهی پشتیبان تصمیم با کاربرد در هر دو حوزهی برخط و برونخط
از یک منظر پژوهشی نسبتا متفاوت
- ارائهایدههایی در مورد ساختن تدریجی درخت تصمیم به کمک یادگیری تقویتی سح
صفحه 66:
© 30
نتیجه گیری از تحقق در حوزه war?
کارایی مناسب در مواجهه با رقبای شناخته شدهی حوزه ویژگی و تصیم
قابلیت یادگیری انتخایی /توجهی تر کیب تدریجی تصمیم (در مقایسه با روشهای
استاتیک که از همهی ورودیها استفاده میکنند.)
ت بهره گیری از طبقهبندهای محلی که لزوما هم خیلی خوب طراحی
نشدهاند.
توانایی مدیریت برخی خطاهای رایج زمان طراحی (از قبیل تکرار یک خبره در
مجموعهی خبرگان که موجب اعمال نظر مضاعف میشود و نیز خبرههایی که به
صورت هدفمند نظر خطادار اعلام مینمایند) و انتخاب بهترین عکس العمل در
قبال آنها.
توانایی در اختیار قرار دادن نحوهی رسیدن به جواب بهینه علاوه بر اينکه خود
پاسخ نهایی را هم در اختیار فرد تصمیم گیر قرار میدهد.
صفحه 67:
سس
6
محدودیتهای به کار گیری در حوزه ar
اگر با یک مسئله تصمیمگیری سروکار داریم که در مورد آن: نظرات
خبرههای گوناگون وجود دارد
یا به سادگی میتوان نظرات این خبرهها را تهیه یا شبیهسازی نمود
- با تقسیم ویژگیها بر اساس 851۷ یا ۷50۷ خبره های ضعیف
ایجاد نمی گردد
9 ی 5 را باب ند تاسیی افزایین قاد کهقلاق تقيميم تفای قابل اتف
اشد
نحوهی تر کیب مناسب این تصمیمها برای تصمیم گیری نهایی معلوم
نبوده. استفاده از همهی آنها هم هزینهبر باشد
هدف. کاهش هزینهی تصمیمسازی بوده. تحقق این کاهش هزینه از
طریق مشورت با خبرهها پذیرفتنی باشد
صفحه 68:
سس
گامهای آتی برای ادامه کار در حوزه برونخظ
ارائه روشهای کارآمدتر برای ساختن طبقهبندهای محلی
آزمودن کارآمدی این روش در مسئلهی یادگیری چندین
هستهای
- چون در روشهای مبتنی بر 6۲6۵ مثل 5۱/۷ هدف آن است
که جداسازی در فضای با بعد بالاتر ولی جداپذیر خطی صورت
بگیرد. شاید این روش جایگزین خوبی برای جداپذیر نمودنی که
لازمه کار است. باشد.
تشکیل ساختار درختی ترکیب تصمیم با هدف نشان دادن برتری
این روش بر روشهایی که در تشکیل درخت. تنها نگاهی به
سودمندی هر گام در شکاندن فضای ادراکی دارند اند ۶0۲00۷
é (based measure of impurity
صفحه 69:
04
9
نتیجه گیری از تحقق در حوزه برخط ]
توزیع نمودن دشواری یادگیری در ازهای متوللی: بار اصلی یادگیری وظیفه در
فاز اول و دوم. بار اصلی یادگیری کنترل توجه در فاز سوم.
توانایی یادگیری در یک فضای جایگزین و مناسب به جای فضای ادراکی
چندبعدی اولیه با ویژگیهایی از قبیل توانایی استفاده از دانش خبرههای
متفاوت, احتمال بدنملیی کم و با ابعادی که پیش از ابعاد نسخه معادل ادراکی
al ET pb
توانایی نادیده گرفتن ابعاد نامرتبط به وظیفه در هر وضعیت
یادگیری انجام وظیفمی رانندگی با تعداد محدودی شیفت توجه در یک فضای
پیوسته حالت که نمونهای از وظایف رباتیکی دنیای واقعی است
Ke git راهکار نمینه برای تعریف سلسه مراتبی تلبع پاداش برای کاهش
حداکثری ابهام در یادگیری یک وظیفهی متنوع به لحاظ عملکردی
ارائهی یک راهکار نمونه برای طراحی عاملهای یادگیر یک وظیفهی ei’
صفحه 70:
سس
هدف از آرزیابی میزان بدنمایی*
* با محاسبه حد بالای احتمال رخداد بدنمایی در فضای تصمیم نشان
دادیم که با انتقال به فضای تصمیم. بر خلافد تصور احتمالی»
احتمال بروز بدنمایی را افزایش ندادهايم.
نحوه محاسبه:
مساوی قرار دادن مختصات دو نقطه در فضای تصمیم
- تفکیک معادله به اجزاء سازندهاش و تقریب کمیتهای پیوسته با
کمیتهای گسسته متناظر
7 فرمولبندی مسئله "احتمال بروز اين تساوی" در قالب یک مسئله آنالیز
ترکیبی معادل
- بيدا كردن ياسخ به يك فرم بسته بازكشتى
- بررسى صحت فرم بسته به كمك روش تكرار زياد به صورت عددى
صفحه 71:
سس
محدودیتهای به کارگیری در حوزهی بر
اگر با یک مسئلهی یادگیری رباتی مواجه هستیم که فضاى ادراکی آن
جندبعدی است
اگر استفاده از کل فضای ادراکی به یکباره برای یادگیری ربات بسیار
پرهزینه باشد.
اگر فضای کنشهای ربات قابل گسستهسازی و در مقایسه با ابعاد
فضای ادراکی بسیار محدودتر باشد
اگر طراحی تابع پاداش به صورتی ترجیحا سلسلهمراتبی شدنی باشد
اگر یادگیری در زیرفضاهای جداگانه به دلیل بدنمایی ذاتی شدید. با
مشکل عدم همگرایی مواجه نباشد
اگر بعد فضای تصمیم (حاصلضرب بعد فضای کنشهای ربات در
تعداد خبرههای محلی) با توجه به روش یادگیری پیوستهای که بهکار
گرفتهمیشود. پذیرفتنی باشد. ۲
6
صفحه 72:
9 8
گامهای آتی برای ادامه کار در حوزه eee
* یافتن یک فضای فشردهتر به جای بازنمایی کنونی فضای
تصمیم
* بخشبندی و یافتن خوشههایی به صورت اتوماتیک در فضای
ادراکی به جای خبرههایی که در اين روش به صورت دستی
و بر اساس قواعد یافتهای طراحی شدند.
* اعمال روش در یک وظیفهی دیگر به گونهای که نیاز به در
نظر گرفتن مشاهدات گذشته نیز موجود باشد
* استفاده از تکنیکهای انتقال دانش قبلا یادگرفته شده برای
سرعت بخشیدن به فرایند یادگیری
صفحه 73:
fobolab:
بار ديكر
Attention 5) شما متشكرم!
صفحه 74:
سید راما
GAA افكت
2 3
SU bes
سل مور يود ae مرج براي ساهااة | | |ى
a eS Pee ae 9
75
صفحه 75:
مات ر
۲
Tat آقای هادی فیروزی:
آقاى آرش آرامى: طرلی روف
يحتهاى مقيد در Bayesian RL