علوم انسانی و علوم اجتماعیروانشناسی و روانپزشکی

ارائه‌ی چارچوبی برای یادگیری کنترل توجه در وظایف با فضای ادراکی چند بعدی

صفحه 1:
fobolab: ارائه‌ی چارچوبی برای یاد گیری کنترل توجه در وظایف با فضای ادراکی چندبعدی مریم سادات میریان اساتيد راهنصا: دکترمجید نیلی, دکتر بابک نجار اعرابی

صفحه 2:

صفحه 3:
00011 فهر ست مطا لت * مقدمه * اهميت و انكيزه 7 پرداختن به کنترل توجه (در حالت کلی) پژوهش (به طور خاص) نوآوری‌ها در قالب یک شبکه‌ی مفهومی با گذار از حوزه‌های مرت پیشنهادی تحقق در حوزه‌ی برخط چارچوب <- تحقق در حوزه‌ی بر جمع‌بندی و نتیجه‌گیری پیشنهادهایی برای ادامه‌ی این پژوهش

صفحه 4:
‎robolab'‏ مقدمه: کنترل توحه جیست؟ ‏* روانشناسی ‎ ‎ ‎ ‏- کنترل نمودن روند تفکر بر یکی از چندین موضوع یا شیتی که به طور همزمان ممکن است ذهن را مشغول نماید. ‏- بریدن از چیزهایی برای پرداختن موثرتر به چیزهای دیگر. ‏متسین ‏فیلتر نمودن فضای ورودی به گونه‌ای که بر چیزی که در فرایند تصمیم‌گیری ارزش بیشتری دارد. متمرکز شویم. ‏- ایجاد ارزش/اهمیت کمتر برای ورودی‌های گمراه‌کننده» غیرقابل اتکاء و نويزى ‎ ‎ ‎

صفحه 5:
‎Be‏ اهمیت پرداختن به کنترل توجه ‏* هرجا نیاز به تصمیم‌گیری — در زمان محدود 7 با هزینه‌ی مشخص > بر اساس اطلاعات انبوه باشد نیاز به روشی است که به نوعی از میان منابع اطلاعاتی موجود. زیرمجموعه‌ی مناسب‌تر را برگزیند. * تعابیر متفاوت ولی مرتبط به توجه در مهندسی: - يالايش یا فیلترینگ - انتخاب حسگر 7 کاهش بعد ‎sont

صفحه 6:
‎Be‏ اهمیت و انگیزه‌ی کنترل توجه ادراکی ‎fobolab:‏ (در حالت معمول) ‏* حل مشکل محدودیت زمان و توان پردازشی ۰ حل مشکل پیچیدگی فضای حاصل از ادراک همزمان تمامی ابعاد سنسورهای ورودی * حل مشكل ابهام به دلیل اطلاعات انبوه سنسوری * راهى برای کارآمدتر نمودن حل مسئله‌ی تصمیم‌گیری - کاهش بعد فضای ادراکی ربات کاهش نیاز به حافظه برای ذخیره‌ی مشاهدات غیرضروری - ساده‌تر شدن مدلی که ربات برای انجام وظیفه باید از محیط بسازد

صفحه 7:
و اسبت ری بادگیریکترل توب ‎fobolab:‏ (در حالت معمول) * اينكه ”به چه/کجا نگاه کنیم؟" و اينکه "در پاسخ به مشاهده‌ی انجام شده. جه كنشى انجام بدهيم؟“ به يكديكر تافته شدهاند. زیرمسئله‌ی اول در خدمت دومی است! (با مدف تسهیل و کاهش بار مسئل‌ی دوم) iit) G2 > ‏سم‎ ‎look?

صفحه 8:
‎Be‏ اهمیت 3 انگیزه‌ی اين پژوهش: ۳ یادگیری کنترل توجه در فضای تصمیم ‏* اينکه "با چه کسی مشورت کنیم؟" و اینکه "در پاسخ به مشورت دریافتی, چه کنشی انجام بدهیم؟" به یکدیگر تافته شده‌اند. مشورت ها به صورت ترتیبی انجام می‌شوند. - سطوح و ناحیه‌ی خبرگی ها متفاوت هستند. ‎4 i ‎What to do? ۷۵۰ ed ‏ل‎

صفحه 9:
3 ایده‌ی اصلی چارچوب * تقسیم مسئله‌ی اصلی به زیرمسئله‌های یادگیری کوچکتر و سپس یادگیری نحوه برهم‌نهی نتایج: * یادگیری انجام وظیفه در زیرفضاهای ادراکی ساده‌تر به صورت موازی توسط ماشین‌های یادگیر ساده‌تر * یادگیری کنترل توجه با تعبیر یادگیری مشورت با همین ماشین‌های ‎Sok‏ ساده‌تر در فضای تصمیم 4

صفحه 10:
1 ‏ياد كيرى در فضاى ادراكى جندبعدى‎ AP ۲ robolab (در حالت معمول) فضای ادراکی جندبعدی ۱ كدام ستسور؟ و دام کنشو ۱ نظر اتصميم اكنش تهايى

صفحه 11:
ل ساد سه یکین دی در ان سا ‎(ST)‏ ‏جص فضای ادراکی چندبعدی د اه ۸ كم يبدا ۳ بعد كمتر - ‎ES‏ ‎Sey a‏ ¥ 1 Perceptual pace د بعد 7 5 5 4 8 1

صفحه 12:
۱ سوال كنترل توجه: ادراكى يا تصمیم؟! * یادگیری کنترل توجه در فضای ادراکی اگر ما حداکثر 1 حسگر (يا در حالت کلی 1 موقعیت مکانی/شبیء مثلا در داعل یک مانند بینایی) داشته باشیم که به کمک انوا موقدت با حالت قفا وا دراک نماییم. به ازای هر موقعیت_کدامین 11 بیش از بقیه هم به لحاظ اطلاعانی مفیدتر است و هم به لحاظ اقتصادی به صرفه‌تر است که استفاده شود؟ *_یادگیری کنترل توجه در فضای تصمیم به جای (] تا حسگر, در واقع | عدد خبره داریم

صفحه 13:
* هدف این پژوهش ارائه‌ی یک راه‌حل بکپارچه است برای حل مسئله‌ی ‎Attentive‏ ‎Decision Fusion‏ ولی در در حوزه مختلف برای طراحی جمع خبرگان : * برخط در کازبردهای وباتیگی * برونخط در کاربردهای شناسایی الگو

صفحه 14:
‎Be‏ اهمیت و انگیزه‌ی این پژوهش: ‎fobolab‏ جرا یادگیری؟ ‏* یادگیری تنها اه حل ممکن ااست وقتیراه حل بهینه‌ی یک مسئله را در حالت کلی نمی‌دانیم *مدل محیط و سیگنال دقیق خطا را نداریم *مفاهده‌سایی که ربانتو ظراعشن هر كدام:در محيظ انجام می‌دهند. متفاوت است

صفحه 15:
‎Be‏ اهمیت و انگیزه‌ی اين پژوهش ‎ig fobolab:‏ نوع یادگیری؟ ‏* یک روش یادگیری در تعامل با محیط ‏* یک روش يادكيرى فقط براساس يك ارزيابى غير مستقيم از عملكرد ‏* يك روش يادكيرى كه قابليت وارد كردن هزينه براى هر كنش عامل را داشته باشد تا در مجموع كل هزينه را بتوان كنترل كرد.

صفحه 16:
020 چرا روش توجهی برای ترکیب تصمیم؟! * هزینه بر و طولانی بودن استخراج تمامی اطلاعات لازم برای یک تصمیم‌گیری جامع * نیاز به پردازش اطلاعات انبوه و مشورت‌های متعدد با افراد خبره برای اتخاذ یک تصمیم منطقی * در مسائل تشخیص (پزشکی). مشورت با یک خبره(پزشک) متخصص جدید. نیازمند فراهم کردن اطلاعات(انجام آزمایش‌های) جدید است؛ چرا که هر خبره (پزشک) ممکن است از منظری خاص به یک مسئله (بیماری) واحد بنگرد. * پس به کمک ایده‌ی توجه اين فرایند را تسهیل می‌کنیم.

صفحه 17:
0 چالش‌های حوزه‌ی ترکیب تصمیم چیست؟ دانش یک فرد خبره و حوزه‌ی خبرگی وی در حالت کلی بر روی حوزه‌ی مسئله. معمولا ناکامل و نایکنواست. * بسیار محتمل است که پیشنهادهای یک خبره روی کل فضای مسئله ناکامل باشد پيشنهادها در مورد برحی پرسش‌هایی که در حوزه‌ی خبرگی وی واقع نشوند. برای وی گمراه‌کننده و حتی ابهام‌برانگیز هستند. منطقی نیست که ابتدا همه‌ی مشورت‌ها را به صورت یکجا انجام دهیم و سپس به یکباره و بر اساس کل آنها؛ اقدام به تصمیم‌گیری نماییم. بنابراين لازم است كه به صورت ترتیبی و بر اساس انتخابی هوشمندانه و با توجه به میزان سودمندی نظر هر خبره. اقدام به انتخاب توجهی خبره‌ها کنیم!

صفحه 18:

صفحه 19:
fobolab: META 1

صفحه 20:
fobolab| ‏مدلسازئ‎ يادكيرى ‎Attentive Decision Fusion‏ به عنوان یک مسئله‌ی یادگیری تعاملی

صفحه 21:
00010 Je, (Fil de selected experts so far s=[ss,..5)]5, Oe otherwise aeA4A=TUD x = Pr(als) Decision support of an ‏كت‎ ‎expert about all actions 22

صفحه 22:
0۳ مولفه‌های کلیدی ‎MDP‏ مفروضس = the initial state of ADEL agent before consulting any LDE =O. aa |») ‏7ل بكر‎ selected experts ‏مد‎ far ۳ otherwise > ره ره یدرد م04 ۱۳) =d;| f)Prid,, = != the number of LDEs o= |D| = the size of the decision actions if a=d,<D=s € Terminal state High Positive, ifa= Correct Decisio r= High Negative, ifa= Wrong Decision= D r= (Small Negative) x (number of already consulted experts), ifa=T State (S) Actions (4) ‘Transition Function (Iran) Reward Function 6

صفحه 23:
fobolab: تحقق چارچوب پیشنهادی اين رساله در: ‎i‏ حوزه برون‌خط ‎١‏ حوزه برخحط ‎ ‎ ‎

صفحه 24:
fobolab: تحقق چارچوب در حوزه‌ی برون خط

صفحه 25:
رگیری |۸10۳ در حوزه برون خط داده‌ی آزمون قابل‌اتکائی برای محک‌زنی مسئله‌ی ترکیب تصمیم نداریم. پس طبقه‌بندی و تشخیص را انتخاب کردیم» چون: — طبقه‌بندی وظیفه‌ی مناسبی برای آزمودن یک روش تصمیم گیری از جنس ترکیب تصمیم به نظر می‌رسد. - خبره‌های محلی که نیاز داریم را می‌توانیم به سادگی با طبقه‌بندهای محلی جایگزین نماييم. - با انتخاب طبقه‌بندی به عنوان وظیفه‌ی محک. می‌توانيم روش خود را با روش‌های شناخته شده‌ی این حوزه مقایسه نماییم. اما بدين ترتیب. خبره‌ها را هم بايد خودمان بسازیم!

صفحه 26:
fobolab: ساختن خبره‌ها: چند فرصت و یک تهديد! فرصت‌ها: - روش ما به یک آلترناتیو برای محک‌زنی با روش‌های شناخته‌شده‌ی حوزه طبقه‌بندی تبدیل می‌شود ‎IIL‏ در حوزه‌ی پيشنهاد و تست روش‌هایی برای طراحی خبرگان هم به عنوان یک :>1ا0۲00- 2۷ وارد می‌شویم. * ورود به حوزه‌ی شناسایی الگو و شکل‌دهی فضای جایگزین یادگیری و یک طراحی مناسب برای خبرگان ساده نیست: اگر خبره‌ها را از قبل داشتیم. صرفا برای مشورت با آنها هزینه لحاظ می‌کردیم و نظر آنها را در هر مورد بنا به روش خود به صورت ترتیبی ترکیب می‌کردیم و..

صفحه 27:
‎robolab‏ طراحی خبره‌ها با هدف ایجاد تنوع ‎ ‎ ‎ ‎885 ۰۳ ۳

صفحه 28:
wLDE . ‏طراح‎ «i, BRSM ‏سیاست‎ Tho sot of features: F robolab Number of Experts 2 7 ‏روشی برای ایجاد یک طراحی سریع» و‎ هیا موه مق مدای ‎aula‏ ی ‎Pa eee‏ ما کار ‎sales ae‏ ‎ed Sees pots‏ 2 ‎Number of Classifiers Dis‏ ‎NomboratFootres per Clssiber =‏ ‎ibe‏ ‏1 ‎a‏ ‎a‏ ‎Fe‏ ‎eee‏ 1 ‘Make [bins of sorted features; feach contains fpc features. ساده و طبعا تصادفی(البته به صورت متوازن) Balanced Random Sub-space Metod = Randomly select fc features from these I bins to assign to the feature subspace of local experts. ‘diffrent portions of feature space: Fe by We

صفحه 29:
یواست ۳۱5 برای طراحی 00اه نوزیع ویژگی‌های کم‌هزینه میان اولویت دادن به طراحی که ویژگی‌های ر پرهزینه را به تعداد محدودی از خبره‌ها منتسب نماید بر طراحی دیگری که بدون توجه به هزینه‌ی لازم برای به دست آوردن هر ویژگی, آنها را به صورت یکنواخت و بر اساس تمادف مان همهی ماش وده “The sot of features: F Number of Classes - 6 م ‎Divide the features into two‏ ‎groups: expensive and inexpensive‏ موه تم له ها هه موه له دون 4 Randomly distribute the expensive features among local experts 1 ‘Map all the training instances to the Decision Space Using the decision of each local expert + 7 GlustMem, = number of ‘members of class jin the cluster j ‎TERY]‏ وو ‎dustMem,‏ 3 ‎Yes 3 ‏تین‎ ‎‘We have / different portions of feature space: fy. f,called cls(i).F where ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎Pre-Knowledge based Sun-sapce Method ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 30:
‎fobolab|‏ داده‌ها و روش‌های محک ‎ ‎ ‏* داده‌ها > يازده داددى انتخا روش‌های فضاء - یک طبقه‌بند ‎NN‏ دز ر فضای ویژگی < روش ‎Bagging‏ ‏— روش ۸050005۲ ‎UCI ML Repository ‏از مجموعه داده‌های‎ ‎ ‎ ‏ژثی‌های فضنای تصعین: یک طبقه‌بند ۲-۱ در فضای تصمیم ‏- روشهاى تركيب تصمیم ‏چسب خروجی: روش رای‌گیری اکثریت ‏رتب‌ی تصمیم‌های خروجی: روش ‎Borda-count‏ ‎ ‎ ‎

صفحه 31:
fobolab: کارایی: متوسط نرخ تشخیص «در ه بار اجرا) روی داده‌ی آزمون قوام نسبت به نحوه‌ی تفکیک ویژگی‌ها: واریانس نرخ تشخیص «در ه بار اجر) روی داده‌ی آزمون نسبت مشورت ‎anc‏ سس مه als

صفحه 32:
9 ADFL+BRSM: suc 5 *_ شکست رقبای ترکیب تصمیمی خود از لحاظ نرخ تشخیص ‎eld‏ ‏- حتی در میاردی که نرخ تشخیص هر خبره به صورت محلی پایین است. * مشورت هوشمندانه ۸۸0۳1 بعد از آموزش در هر حالت فقط با خبرگانی که سودمند تشخیص داده شده‌اند (چانکه نت مشورت نشان می‌دهد) در مورد برخی داده ها شکست از ‎Bagging , Adaboost‏ کچ له وه ]| ‎Sectors‏ ‏هو هه هه | اه هل ای اه ¥ اد ‎a =e Er aa‏ ‎de ©‏ سر یه | سید ‎si ts [ eon‏ نیا 9 م | سيم )0.00 0005( ‎Ee‏

صفحه 33:
+PKSM ADFL; slic _ * ازایش معناداز ترج تشخیصی نهایی بر روش‌های رقیب هم در دسته‌ی ترکیب تصمیم و هم ‎Bagging , Adaboost‏ واریانس کم در نرخ تشخیص نهایی - قوام نبت به چگونگی شکست کل دادهبه مجموعه‌های آموزش و آزمون و نیز شکست مجموعهی ویژگی‌ها میان خبره‌های مختلف * _لزوم حداقل درکی از معنای ویژگی‌ها! م ماه سوت مهن ‎Ecemble z‏ اه‌لاس ‎Fron Metods‏ كمومه ‎ww | 2‏ ههد ‎con se Algor‏ ‎wa |‏ جم سل مه | یه | که ‎٩‏ | ۲۶ ‎as Ps as a ۳‏ ‎om | oo | eo» | 0 | eon ۳‏ 5 او | 7 ‎Pa‏ هو ‎coon | coo | 08, | oor, a as a oo | EF‏ | وس | تاد ‎Pa‏ من روم ‎Dacian Sane Meo Fea Sac Metts‏ 3 ممع قوست ‎Metis‏ نیج اه ‎“aoa wn | 2‏ ميم | ‎ase grit‏ 6 295 | 6 | 5م ‎NW‏ ]مدمه هه | میت | ‎Com‏ ‎pa‏ | وت ‎vst‏ ‎as | sm | a 1 0‏ ود ‎oon, | @ | sav | coon‏ فد | یی ]ود هل[ كلد 007 ند 595 ‎a on‏ )0.001( )0.04 } )0.03( ,)0.08 )0.005( 830 | هم ‎a9‏ ‎oon | aon | oon | con | cos 7‏

صفحه 34:
آزمون علامت(95]). ویلک و کسون (0۷) و (01) ] میان 11 5 + 1 هال بر اساس بهترين طبقهبند يايه و روشهاى رقيب Fusion(Be Ensemble(B Adaboost+k Adaboost+S ظدووتمو+ا-‎ vM NN sts) ests) -NN 100/1 7/2/2 11/0/0 2/1 902 Win/draw/loss ‘ps=0.0009 w=0.0009 ‏نك‎ ‎pt=0 pt=0.0123 _pt=0.0068 st 515101 +811 با بهترين15 1.5 ها امستقاز نوع الكوريتم يادكيرىئيليم) : از بهترین روش‌های رقیب در دسته روش‌های اجماع خبرگان با ‎٩۰‏ درصد اطمینان و 6 از بهترین روش‌های رقیب در دسته‌ی ترکیب تصمیم با ۹۵درصد اطمینان, بهتر عمل مى كند.

صفحه 35:
‎fobolab‏ معیارهای ارزیابی تکمیلی ‏* قوام نسبت به ۲ گونه‌ی مختلف از خطاهای زمان طراحی خبرگان - خبرهاى كه در حالت بايئرى» صد در صد و در حالت حندكلاسه با الگوی مشخصی به طور هدفمندی اشتباه می‌کند. ‏- خبره ای که نظر تکراری ارائه می‌نماید. ۱ ات ‎ey |‏

صفحه 36:
obo تست خبرههای تکراری ‎rr‏ ERN os | Bescon] Dataset mst ows | ‏مس ون | سم | ممم | عي‎ | (ame ase Space| toes inane) ۳77 ‏سوه‎ ‎ie (0.03) | (0.06) (0.03) (0.07) (64.5) With duplicated Diabetes: uae soa | na | soa | sea cup a) é eon | oon | 09 | eon | BE G. 66.6 713 200 Original, 3 Be (0.003) (0.02) (0.05) (0.02) 71.2) Hepatitis 8 ‏سره‎ ‏وه هه‎ | 45 evn) aa ‏ددم | دمم‎ J7200 | DE ire ENN on] Deserption | — Dataset ‏امه‎ Borda ‏تالضع‎ | spre | own | ۳ ‏سدس‎ | Decision | ‏مهس | کت وه‎ | 4 Space LDEs) learner) 2 0 55 | 554 551 0 —| Ona ‏هه | مهم | ما‎ “os (615) ‏هه‎ 7 ue ‏هجو | هجو لسویوی‎ |S ‏5نم‎ | won | ‏هم همم‎ E rs) . saa] esa [7500 J] —aa3 | — Orginal gue ‏4رد 2 (۵8 و‎ (0.001) (74.5) ‘Wavetocn ‏وري‎ | 2250 | 7102 | osas | 7505 [oso | ۳۳| ‏ون‎ ‎@.00 | (002 | won | coe | coo | dre

صفحه 37:
ای یادگیری د؛ که هر دو خبره

صفحه 38:
نتایج آزمایش افزودن خبره‌ی تکراری ‎rr‏ * این افزونگی بر خلاف روش‌های رایج ترکیب تصمیم تاثير مخربی بر نتیجه‌ی روش پیشنهادی نداشته است. - قوام روش به چنین خطاهای زمان طراحی! نتایج روش‌های ترکیب تصمیم. تاثیر مستقیم این آزمایش را در خروجی نشان می‌دهند. ° عامل یادگیر در ما هم با یک خبیه و هم با کپی آن مشورت نمی کند.

صفحه 39:
‎ee‏ مره ‎ ‎Camere ‎Pima Indian Diabetes ‎Original ‎With output- inverted LDE ‎ ‎Dataset ‎(LDEs’ Base learner) ‎Dermatology ‎(NB) ‎Satimage ‎(NN) ‎ ‎ ‎KNNon | Avg CCR ‎Decision Space | of LDEs ‎72.3 5 64.5 ‎(0.07) ‎100 ‎8 516 ‎ ‎Description ‎(Avg. CCR of LDEs) Original (97.25) With systematically wrong LDE (81.04) Original (89.3) With systematically wrong LDE (74.4) ‎ ‎ ‎75.3 ‎(0.03) ‎68.9 ‎(0.08) ‎ ‎ ‎INN on Decision Space 95.5 (0) ‎100 ‎(0) ‎90.15 ‎(0.0002) ‎100 ‎(0) ‎ ‏نتیجه‌یآ زمایش افزودن تصمیم گیرهای به طور سیستماتیک خطادار ‎Borda Majorit ‎ ‎owas | “count _|yvoting 66.3 76.6 0.03)} (0.06) 59.5 | 25 (0.01)} (0.04) ‎ ‎ ‎Borda | Majority ‎Count | Voting 82-5 ‎)0012( | 0 73.7 | 62.03, ‎(0.002) | (0.03) 50:30 | 8 )0( | 02 ‎4a72 | 63.80 ‎ ‎ ‎/ ‎ows ‎ ‎(0) ‎65.9 ‎(0.06) ‎63.95 ‎0.01) ‎52.78 ‎ ‎۳ ‎ADFL. ‎17.25) ‎(0.0003) ‎100 ‎0) ‎95.02 ‎(0.0001) ‎100 ‎ ‎ ‎ ‎ ‎ ‎Consultat ‎fon Ratio ‎34/4 ‎1.265 ‎34/5 ‎1.5/6 ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 40:

صفحه 41:
بحث در مورد طراحی خبره‌های محلی 3 Adaboost ‏شكت 885۱ + ۸۵0۴۱ از‎ robolab Bagging ‏روی اغلب مج [های داده‌ای‎ بررسی توزیع نمونه‌های آمیزشی در فضای تصمیم (فضای تصمیمی متشکل از خبره‌های محلی طراحی شده بر اساس روش ‎BRSM‏ که پیش از بقیه با آنها مشورت شده مشاهده: یک فضای تصمیم در هم که به ندرت می‌شد مرز تصمیم مشخصی میان نمونه‌های کلاس‌های مختلف متصور شد. : بسیار دشوار است كه 810151 بتواند با قراردادن گوسی‌ها و تنظیم میانگین و واریانس آنها. مرز تصمیم مشخصی در فضای تصمیم شکل بدهد و به کارایی مناسب و مورد انتظار دست یابد.

صفحه 42:
fobolab: هسته‌ی گوسی در نواحی مختلف فضای یادگیری قرار می‌دهد. - سپس میانگین و واریانس آنها را در طول زمان با ورود نمونه‌های یادگیری جدید. تنظیم (به‌روز) می‌کند. 9 در هم رفتگی زیاد نمونه‌های یادگیری باعث افزایش تعداد هسته‌های گوسی‌می‌شود و کار را دشوار و بعضا غیرممکن می‌کند. * يس باید تا حد امکان فضای تصمیم اولیه را گرانول‌بندی شده به 80 تحریل ‎eau‏

صفحه 43:
و و و و ها دهی ‎robolab‏ شکلدهی ‏ DHS PR book: Ch2. page 6 44 pcr

صفحه 44:
5 بحث در مورد طراحی خبره‌های محلی(۳) * تعریف معیاری با نام ۱۳06 5606۲301][6۷برای سنجش ‎Ole‏ ‏قابلیت خوشه‌بندی فضای تصمیم (مطلوبیت موردانتظار در فضای تصمیم) * روش 6۷ بر اساس بیشینه نمودن این معیار, ویژگی‌ها را انتخاب می‌نماید.

صفحه 45:
robolab نتایج طراحی خبره‌های محلی به روش ‎KSM‏ * غالبا افزایش متوسط دقت خبره‌های محلی و کمیت جداپذیری در فضای تصمیم هر دو بر بهبود کارایی نهایی ‎۸٩10۳1‏ تاثیرگذار هستند. بهبود متوسط دقت خبره‌های محلی در اکثر موارد موجب جداپذیری بهتر هم می‌شود ولی عکس این شرایط وجود ندارد. * به صورت تجربی مشاهده شد که ضریب همبستگی میان جداپذیری و متوسط دقت خبره‌های محلی یک عدد منفی و کوچک است. ‎bea SI *‏ بيثارنياييلست ‎UT‏ خبره‌های طراحی شده (حتی با متوسط قدرت کم) به صورت بالقوه برای ا۸۸2۲ مناسب هستند یا خیر؟ ‎ ‎۰ ‏معمولا طراحی خبره‌هایی با متوسط قدرت بالا در عمل دشوار است در حالیکه افزایش جداپذیری به مراتب عملی‌تر است.

صفحه 46:
5 تحقق چارچوب پیشنهادی ‎fobolab‏ اين رساله در: ‎v‏ حوزه برون خط ‏۳ حوزه برخط ‎ ‎ ‎2

صفحه 47:
fobolab: تحقق چارچوب در حوزه‌ی برخط ‎(Sits 6 Seb cl, METAL)‏

صفحه 48:
001010 در حوزه برخط * باز هم به دنبال حل مسئله کنترل توجه از طریق تبدیل آن به فرم یک مسئله یادگیری ترکیب تصمیم هستیم. ‎Goals Lh‏ آموزشی نداریم: ‏پس ایجاد خبره‌های محلی چگونه باید باشد؟! ‏* قطعا در این حوزه نیازمند تعامل با محیط برای آموزش خبره‌های محلی هستیم.

صفحه 49:
‎Mixture of Experts Task & Attentié®‏ امع ‎on ‎Learning ‎Structural ‎ ‎ ‎Learning ‏ا ل سس‎ Phases. ‎(==. ‎ ‎ ‎ ‎

صفحه 50:
‎Mixture of Experts Task & Attenti‏ امع ‎Learning ‎Structural ‎ ‎ ‎Learning ‎sles Phases. ‎(==, ‎ ‎ ‎ ‎Lona ‎Behavior ‎Quality

صفحه 51:
- خبره‌ی انسانی به عنوان مربی و نقاد عمل می‌کند. - ریزعامل ها 0 ‏به‎ (Sry +4) =Qry, (Sra, (+ Qe (Sra Fes) =Qraa Sra» Aen) + TDs

صفحه 52:
‎Mixture of Experts Task & Attentié®‏ امع ‎on ‎Learning ‎Structural ‎ ‎ ‎Learning ‎manna Phases. ‏و ==={ ‎ ‎ ‎ ‎

صفحه 53:
fobolab: یک مرکز ترکیب د بين قرار مى كير ريزعاملها و عامل مشاهدكر كامل تصميم حريصائهى خحود را اتخاذ مكنند وآ به همراه درجه بشتيبائى به مركز تركيب نهایی می‌فرستند. تصمیم نهایی توسط مرکز ترکیب و بر اساس ماکزیمم نمودن يك معيار خبرگی انجام مىشود. بدین ترتیب کیش انجام می‌شود و سيكنال تقویت از محیط دریافت می‌شود وقتی ‎Sth‏ ریزعامل‌ها تبدیل به خبره‌های محلی می‌شوند. 54 يزغاملها عمكرا مى شوف. عامل مشاهده‌گر کامل حذف می‌شود و 1۳ Action py =argMaxAs,,,4,)),K=12,...] Al Aron =ATMAX A Soy 4), K=L, ارم ,رک .رک هعرج

صفحه 54:
‎Mixture of Experts Task & Attentift‏ امع ‎Learning ‎Structural ‎Learning ‎

صفحه 55:
فاز سوم: یادگیری کنترل تو توجه کردن بهنظر یک تفر 2 Decision support of an expert about Aue. =Abtiar ‏موسیگ لا‎ Avorcoptuar (Consult TAConsult TA.. Consult Tp ‏مالعا .ما .لها رت ی‎

صفحه 56:
‎Mixture of Experts Task & Attentift‏ امع ‎Learning ‎Structural ‎ ‎ ‎ ‎ ‎ ‎ ‎Learning ‎Phases -_--------------,‏ وس ۰ ‎Passive Demonstration-based Learning ‘‏ 1 1 ۱ ‎1 ‎0 ‎Bayesian ‎Continuo Attention Control Learning 1 23 1 7 ‎Evaluation ‏ع دب ‏مگ ‎Behavior‏ ‎Quality‏ ‎merge ‎

صفحه 57:
‎fobolab‏ معیارهای ارزیابی * از منظر یادگیری: ‏فت یادگیری بر اساس متوسط پاداش دریافتی که عامل در ضمن یادگیری به دست می‌آورد ‏- متوسط پاداش تجمعی دریافتی در حين تست - متوسط تعداد كا مهائ مشياهذه را كه عامل دن هن جالت يز ارد ان نشانگر آن که عامل به مرو خبره‌های ‏باست. ‎ ‎ ‎ ‎ ‎ ‏* یک کمیت نزولی در طو در هر موقعیت را شناسایی ‏* از منظر رفتاری: - تعداد تصادف‌ها ‎mo‏ ‏نرمی مسیر رانندگی ‎cS‏ ‏> اتخاذ سرعت مناسب ‏انش لازم ‎ ‎ ‎ ‎

صفحه 58:
fobolab: تحقق چارچوب در یادگیری رانندگی

صفحه 59:

صفحه 60:
ت۵۵ متوسط پاداش دریافتی ضمن یادگیری 0 © aD ۳ 0 ‏مه‎ 0۳ en ‏سس‎

صفحه 61:
ف © متوسط تعداد گام‌های برداشته شده ضمن ناد گیری Percent of Bins of Perceptual Steps Selected by ACL

صفحه 62:
fobolab 63

صفحه 63:
fobolab: یادگیری ‎Attentive Decision‏ ‎Fusion‏

صفحه 64:

صفحه 65:
تتیچه گیری بر آساتی آیده‌ی سرب از منظر 52 - یادگیری ترتیب مناسب مشورت با تصمیم گیرهای محلی به - یادگیری سیاست مشورتی به گونه‌ای محلی به جای یادگیری یک استراتژی مشورت یکسان روی کل فضای تصمیم * این ویژگی به ویژه وقتی تصمیم‌گیری در زیرفضاها از تصمیم‌گیری در فضای اولیه به گونه‌ی دقیق‌تری امکان‌پذیرباشد. خیلی مطلوب است. ویژگی "محلی عمل نمودن" در فضای تصمیم. دستی طراحی نمی‌شود بلكه ياد گرفته می‌شود. - ایجاد یک درجه‌ی آزادی در طراحی تصمیم گیرهای محلی: کافی است تنها در بخشی از فضای داده به - کمینه نمودن هزینه و تعداد مشورت‌ها و یافتن تصمیم‌گیرهای مطلع‌تر "7 به صورت ترتیبی و بر اساس موقعیت از منظر کاربرد - یک سیستم یادگیرنده‌ی پشتیبان تصمیم با کاربرد در هر دو حوزه‌ی برخط و برون‌خط از یک منظر پژوهشی نسبتا متفاوت - ارائهایدههایی در مورد ساختن تدریجی درخت تصمیم به کمک یادگیری تقویتی ‎ex‏

صفحه 66:
6 Ema نتیجه گیری از تحقق در حوزه ‎yar?‏ کارایی مناسب در مواجهه با رقبای شناخته شده‌ی حوزه ویژگی و تصیم قابلیت یادگیری انتخایی /توجهی تر کیب تدریجی تصمیم (در مقایسه با روش‌های استاتیک که از همه‌ی ورودی‌ها استفاده می‌کنند.) ت بهره گیری از طبقه‌بندهای محلی که لزوما هم خیلی خوب طراحی نشده‌اند. توانایی مدیریت برخی خطاهای رایج زمان طراحی (از قبیل تکرار یک خبره در مجموعه‌ی خبرگان که موجب اعمال نظر مضاعف می‌شود و نیز خبره‌هایی که به صورت هدفمند نظر خطادار اعلام می‌نمایند) و انتخاب بهترین عکس العمل در قبال آنها. توانایی در اختیار قرار دادن نحوه‌ی رسیدن به جواب بهینه علاوه بر اينکه خود پاسخ نهایی را هم در اختیار فرد تصمیم گیر قرار می‌دهد.

صفحه 67:
9 محدودیت‌های به کار گیری در حوزه ‎ar‏ اگر با یک مسئله تصمیم‌گیری سروکار داریم که در مورد آن: نظرات خبره‌های گوناگون وجود دارد یا به سادگی می‌توان نظرات این خبره‌ها را تهیه یا شبیه‌سازی نمود - با تقسیم ویژگی‌ها بر اساس 851۷ یا ۷50۷ خبره های ضعیف ایجاد نمی گردد 9 ی 5 را باب ند تاسیی افزایین قاد کهقلاق تقيميم تفای قابل اتف اشد نحوه‌ی تر کیب مناسب این تصمیم‌ها برای تصمیم گیری نهایی معلوم نبوده. استفاده از همه‌ی آنها هم هزینه‌بر باشد هدف. کاهش هزینه‌ی تصمیم‌سازی بوده. تحقق این کاهش هزینه از طریق مشورت با خبره‌ها پذیرفتنی باشد

صفحه 68:
گام‌های آتی برای ادامه کار در حوزه برون‌خظ ارائه روش‌های کارآمدتر برای ساختن طبقه‌بندهای محلی آزمودن کارآمدی این روش در مسئله‌ی یادگیری چندین هسته‌ای - چون در روش‌های مبتنی بر 6۲6۵ مثل 5۱/۷ هدف آن است که جداسازی در فضای با بعد بالاتر ولی جداپذیر خطی صورت بگیرد. شاید این روش جایگزین خوبی برای جداپذیر نمودنی که لازمه کار است. باشد. تشکیل ساختار درختی ترکیب تصمیم با هدف نشان دادن برتری این روش بر روش‌هایی که در تشکیل درخت. تنها نگاهی به سودمندی هر گام در شکاندن فضای ادراکی دارند اند ۶0۲00۷ é (based measure of impurity

صفحه 69:
04 9 نتیجه گیری از تحقق در حوزه برخط ] توزیع نمودن دشواری یادگیری در ازهای متوللی: بار اصلی یادگیری وظیفه در فاز اول و دوم. بار اصلی یادگیری کنترل توجه در فاز سوم. توانایی یادگیری در یک فضای جایگزین و مناسب به جای فضای ادراکی چندبعدی اولیه با ویژگی‌هایی از قبیل توانایی استفاده از دانش خبره‌های متفاوت, احتمال بدنملیی کم و با ابعادی که پیش از ابعاد نسخه معادل ادراکی ‎al ET pb‏ توانایی نادیده گرفتن ابعاد نامرتبط به وظیفه در هر وضعیت یادگیری انجام وظیفمی رانندگی با تعداد محدودی شیفت توجه در یک فضای پیوسته حالت که نمونه‌ای از وظایف رباتیکی دنیای واقعی است ‎Ke git‏ راهکار نمینه برای تعریف سلسه مراتبی تلبع پاداش برای کاهش حداکثری ابهام در یادگیری یک وظیفه‌ی متنوع به لحاظ عملکردی ‏ارائه‌ی یک راهکار نمونه برای طراحی عامل‌های یادگیر یک وظیفه‌ی ‎ei’‏ ‎ ‎

صفحه 70:
سس هدف از آرزیابی میزان بدنمایی* * با محاسبه حد بالای احتمال رخداد بدنمایی در فضای تصمیم نشان دادیم که با انتقال به فضای تصمیم. بر خلافد تصور احتمالی» احتمال بروز بدنمایی را افزایش نداده‌ايم. نحوه محاسبه: مساوی قرار دادن مختصات دو نقطه در فضای تصمیم - تفکیک معادله به اجزاء سازنده‌اش و تقریب کمیت‌های پیوسته با کمیت‌های گسسته متناظر 7 فرمولبندی مسئله "احتمال بروز اين تساوی" در قالب یک مسئله آنالیز ترکیبی معادل - بيدا كردن ياسخ به يك فرم بسته بازكشتى - بررسى صحت فرم بسته به كمك روش تكرار زياد به صورت عددى

صفحه 71:
سس محدودیت‌های به کارگیری در حوزه‌ی بر اگر با یک مسئله‌ی یادگیری رباتی مواجه هستیم که فضاى ادراکی آن جندبعدی است اگر استفاده از کل فضای ادراکی به یکباره برای یادگیری ربات بسیار پرهزینه باشد. اگر فضای کنش‌های ربات قابل گسسته‌سازی و در مقایسه با ابعاد فضای ادراکی بسیار محدودتر باشد اگر طراحی تابع پاداش به صورتی ترجیحا سلسله‌مراتبی شدنی باشد اگر یادگیری در زیرفضاهای جداگانه به دلیل بدنمایی ذاتی شدید. با مشکل عدم همگرایی مواجه نباشد اگر بعد فضای تصمیم (حاصلضرب بعد فضای کنش‌های ربات در تعداد خبره‌های محلی) با توجه به روش یادگیری پیوسته‌ای که به‌کار گرفته‌می‌شود. پذیرفتنی باشد. ۲ 6

صفحه 72:
9 8 گام‌های آتی برای ادامه کار در حوزه ‎eee‏ * یافتن یک فضای فشرده‌تر به جای بازنمایی کنونی فضای تصمیم * بخشبندی و یافتن خوشه‌هایی به صورت اتوماتیک در فضای ادراکی به جای خبره‌هایی که در اين روش به صورت دستی و بر اساس قواعد یافته‌ای طراحی شدند. * اعمال روش در یک وظیفه‌ی دیگر به گونه‌ای که نیاز به در نظر گرفتن مشاهدات گذشته نیز موجود باشد * استفاده از تکنیک‌های انتقال دانش قبلا یادگرفته شده برای سرعت بخشیدن به فرایند یادگیری

صفحه 73:
fobolab: بار ديكر ‎Attention 5)‏ شما متشكرم!

صفحه 74:
سید راما GAA ‏افكت‎ 2 3 SU bes ‏سل مور يود‎ ae ‏مرج براي ساهااة | | |ى‎ a eS Pee ae 9 75

صفحه 75:
مات ر ۲ ‎Tat‏ آقای هادی فیروزی: آقاى آرش آرامى: طرلی روف يحتهاى مقيد در ‎Bayesian RL‏ ‎

ارائه‌ی چارچوبی برای یادگیری کنترل توجه در وظایف با فضای ادراکی چندبعدی مریم سادات میریان اساتید راهنما :دکترمجید نیلی ،دکتر بابک نجار اعرابی 1 استاد مشاور 2 فهرست مطالب • مقدمه • اهمیت و انگیزه‌ – پرداختن به کنترل توجه (در حالت کلی) – این پژوهش (به طور خاص) • نوآوری‌ها در قالب یک شبکه‌ی مفهومی با گذار از حوزه‌های مرتبط • چارچوب پیشنهادی – تحقق در حوزه‌ی برخط – تحقق در حوزه‌ی برون‌خط • آزمایش‌ها و نتایج • جمع‌بندی و نتیجه‌گیری • پیشنهادهایی برای ادامه‌ی این پژوهش 3 مقدمه :کنترل‌توجه چیست؟ • روانشناسی – کنترل نمودن روند تفکر بر یکی از چندین موضوع یا شیئی که به طور همزمان ممکن است ذهن را مشغول نماید. – بریدن از چیزهایی برای پرداختن موثرتر به چیزهای دیگر. • مهندسی – فیلتر نمودن فضای ورودی به گونه‌ای که بر چیزی که در فرایند تصمیم‌گیری ارزش بیشتری دارد ،متمرکز شویم. – ایجاد ارزش/اهمیت کمتر برای ورودی‌های گمراه‌کننده ،غیرقابل اتکاء و نویزی 4 اهمیت پرداختن به کنترل توجه • هرجا نیاز به تصمیم‌گیری – در زمان محدود – با هزینه‌ی مشخص – بر اساس اطالعات انبوه باشد نیاز به روشی است که به نوعی از میان منابع اطالعاتی موجود، زیرمجموعه‌ی مناسب‌تر را برگزیند. • تعابیر متفاوت ولی مرتبط به توجه در مهندسی: – – – – 5 پاالیش یا فیلترینگ انتخاب حسگر کاهش بعد و ... اهمیت و انگیزه‌ی کنترل توجه ادراکی (در حالت معمول) • • حل مشکل محدودیت زمان و توان پردازشی حل مشکل پیچیدگی فضای حاصل از ادراک همزمان تمامی ابعاد سنسورهای ورودی حل مشکل ابهام به دلیل اطالعات انبوه سنسFوری راهی برای کارآمدتر نمودن حل مسئله‌ی تصمیم‌گیری • • – کاهش بعد فضای ادراکی ربات – کاهش نیاز به حافظه برای ذخیره‌ی مشاهدات غیرضروری – ساده‌تر شدن مدلی که ربات برای انجام وظیفه باید از محیط بسازد 6 اهمیت و انگیزه‌ی یادگیری کنترل توجه (در حالت معمول) • اینکه ”به چه/کجا نگاه کنیم؟“ و اینکه ”در پاسخ به مشاهده‌ی انجام شده ،چه کنشی انجام بدهیم؟“ به یکدیگر تافته شده‌اند. • زیرمسئله‌ی اول در خدمت دومی است! (با هدف تسهیل و کاهش بار مسئله‌ی دوم) ‏Where to ?look 7 ?What to do اهمیت و انگیزه‌ی این پژوهش: یادگیری کنترل توجه در فضای تصمیم • اینکه ”با چه کسی مشورت کنیم؟“ و اینکه ”در پاسخ به مشورت دریافتی ،چه کنشی انجام بدهیم؟“ به یکدیگر تافته شده‌اند. – مشورت ها به صورت ترتیبی انجام می‌شوند. – سطوح و ناحیه‌ی خبرگی ها متفاوت هستند. ‏Whom to ?Consult 8 ?What to do ایده‌ی اصلی چارچوب • تقسیم مسئله‌ی اصلی به زیرمسئله‌ها‌ی یادگیری کوچکتر و سپس یادگیری نحوه برهم‌نهی نتایج: • یادگیری انجام وظیفه در زیرفضاهای ادراکی ساده‌تر به صورت موازی توسط ماشین‌های یادگیر ساده‌تر • یادگیری کنترل توجه با تعبیر یادگیری مشورت با همین ماشین‌های یادگیر cساده‌تر در فضای تصمیم 10 مسئله یادگیری در فضای ادراکی چندبعدی (در حالت معمول) فضای ادراکی چندبعدی کدام سنسور؟ کدام کنش؟ نظر/تصمیم/کنش نهایی 11 همان مسئله با نگرش پیشنهادی در این رساله (یادآوری) فضای ادراکی چندبعدی بخشبندی ‏Perceptual ‏Space فضای ادراکی با بعد کمتر فضای ادراکی با بعد کمتر فضای ادراکی با بعد کمتر کدام کنش؟ کدام کنش؟ ‏Decision Space کدام کنش؟ کدام نظر؟ 12 نظر/تصمیم/کنش نهایی کدام کنش؟ 2سوال کنترل توجه :ادراکی یا تصمیم؟! • یادگیری کنترل توجه در فضای ادراکی اگر ما حداکثر nحسگر (یا در حالت کلی n موقعیت مکانی/شیء مثال در داخل یک مدالیتی مانند بینایی) داشته باشیم که به کمک آنها موقعیت یا حالت فضا را ادراک نماییم به ازای هر موقعیت کدامین ’nبیش از بقیه هم به لحاظ اطالعاتی مفیدتر است و هم به لحاظ اقتصادی به صرفه‌تر است که استفاده شود؟ 13 • یادگیری کنترل توجه در فضای تصمیم به جای nتا حسگر ،در واقع lعدد خبره داریم به ازای هر موقعیت کدامین ’lاز lتا خبره‌ها را برای مشوت انتخاب کنم تا کنش با بیشترین امید پاداش و کمترین هزینه را پیدا کنم؟ دیدگاه پیشنهادی این پژوهش بینش (Intuitio )n تعریف یک مسئله یادگیری در فضای ادراکی چندبعدی + طراح خبره طراحی جمع خبرگان Coreاین پ ژوهش یادگیری ‏Attentive Decision ‏Fusion • هدف این پژوهش ،ارائه‌ی یک راه‌حل یکپارچه است برای حل مسئله‌ی Attentive Decision Fusionولی در دو حوزه مختلcف برای طراحی جمع خبرگان : 14 • برخط در کاربردهای رباتیکی • برون‌خط در کاربردهای شناسایی الگو اهمیت و انگیزه‌ی این چرا یادگیری؟ پژوهش: • یادگیری تنها راه حل ممکن است وقتیراه حل بهینه‌ی یک مسئله را در حالت کلی نمی‌دانیم • مدل محیط و سیگنال دقیق خطا را نداریم • مشاهد‌ه‌هایی که ربات و طراحش هر کدام در محیط انجام می‌دهند ،متفاوت است 15 اهمیت و انگیزه‌ی این پژوهش چه نوع یادگیری؟ • یک روش یادگیری در تعامل با محیط • یک روش یادگیری فقط بر اساس یک ارزیابی غیرمستقیم از عملکرد • یک روش یادگیری که قابلیت وارد کردن هزینه برای هر کنش عامل را داشته باشد تا در مجموع کل هزینه را بتوان کنترل کرد. 16 چرا روش توجهی برای ترکیب تصمیم؟! • • • • 17 هزینه بر و طوالنی بودن استخراج تمامی اطالعات الزم برای یک تصمیم‌گیری جامع نیاز به پردازش اطالعات انبوه و مشورت‌های متعدد با افراد خبره برای اتخاذ یک تصمیم منطقی در مسائل تشخیص (پزشکی) ،مشورت با یک خبره(پزشک) متخصص جدید ،نیازمند فراهم کردن اطالعات(انجام آزمایش‌های) جدید است؛ چرا که هر cخبره (پزشک) ممکن است از منظری خاص به یک مسئله (بیماری) واحد بنگرد. پس به کمک ایده‌ی توجه این فرایند را تسهیل می‌کنیم. چالشهای حوزه‌ی ترکیب تصمیم چیست؟ ‌ • • • • • 18 دانش یک فرد خبره و حوزه‌ی خبرگی وی در حالت کلی بر روی حوزه‌ی مسئله ،معموال ناکامل و نایکنواست. بسیار محتمل است که پیشنهادهای یک خبره روی کل فضای مسئله ناکامل باشد پیشنهادها در مورد برخی پرسش‌هایی که در حوزه‌ی خبرگی وی واقع نشوند ،برای وی گمراه‌کننده و حتی ابهام‌برانگیز هستند. منطقی نیست که ابتدا همه‌ی مشورت‌ها را به صورت یکجا انجام دهیم و سپس به یکباره و بر اساس کل آنها ،اقدام به تصمیم‌گیری نماییم. بنابراین الزم است که به صورت ترتیبی و بر اساس انتخابی هوشمندانه و با توجه به میزان سودمندی نظر هر خبره ،اقدام به انتخاب توجهی خبره‌ها کنیم! Necessitates Needs On Int line, e ra c ti ve Can be considered from perspective of Is done by Task Type e, in vis Offl per Su ed Is done by Can be solved by نمایش ارتباط حوزه‌های پژوهشی مرتبط:شبکه‌ی مفهومی META L ADF L 19 Necessitates META L Needs Is done by Can be considered from perspective of نمایش ارتباط حوزه‌های پژوهشی مرتبط:شبکه‌ی مفهومی 20 مدلسازی یادگیری ‌Attentive Decision Fusion به عنوان یک مسئله‌ی یادگیری تعاملی 21 Feature Space (F) f1 f2 e1 fl fi e2 ei(fi) ei el a ti  T Decision making ADFL agent Update si using ei(fi) a dj  D Decision support of an expert about all actions نیاز به یک روش یادگیری پیوسته حالت ‌و گسسته کنش Bayesia n RL ei ( fi ) [pr(dei d1 | fi ) pr(dei d2 | fi )...pr(dei dc | fi ) 22 مولفه‌های کلیدی MDPمفروض برای فرمول‌بندی مسئله 23 تحقق چارچوب پیشنهادی این رساله در: حوزه برون‌خط حوزه برخط 24 تحقق چارچوب در حوزه‌ی برون‌خط 25 به‌کارگیری ADFLدر حوزه برون خط • داده‌ی آزمون قابل‌اتکائی برای محک‌زنی مسئله‌ی ترکیب تصمیم نداریم. • پس طبقه‌بندی و تشخیص cرا انتخاب کردیم ،چون: – طبقه‌بندی وظیفه‌ی مناسبی برای آزمودن یک روش تصمیم‌گیری از جنس ترکیب تصمیم به نظر می‌رسد. – خبره‌های محلی که نیاز داریم را می‌توانیم به cسادگی با طبقه‌بندهای محلی جایگزین نماییم. – با انتخاب طبقه‌بندی به عنوان وظیفه‌ی محک ،می‌توانیم روش خود را با روش‌های شناخته cشده‌‌ی این حوزه مقایسه نماییم. • اما بدین ترتیب ،خبره‌ها را هم باید خودمان بسازیم! 26 ساختن خبره‌ها :چند فرصت و یک تهدید! • فرصت‌ها: – روش cما به یک آلترناتیو برای محک‌زنی با روش‌های شناخته‌شده‌ی حوزه طبقه‌بندی تبدیل می‌شود – با اینکار ،در حوزه‌ی پیشنهاد و تست روش‌هایی برای طراحی خبرگان هم به عنوان یcک By-productوارد می‌شویم. • ورود به حوزه‌ی شناسایی الگو و شکل‌دهی فضای جایگزین یادگیری و .... • تهدید: – ارائه یcک طراحی مناسب برای خبرگان ساده نیست :اگر خبره‌ها را از قبل داشتیم ،صcرفا برای مشورت با آنها هزینه لحاظ می‌کردیcم و نظر آنها را در هر مورد بنا به روش خود به صcورت ترتیبی ترکیب می‌کردیم cو... 27 طراحی خبره‌ها با هدف ایجاد تنوع ‏ 28 ‏PKSM ‏BRSM هاLDE برای طراحیBRSM ‌سیاست The set of features: F Balanced Random Sub-space Metod Number of Experts = l Select RF = Redundancy_Factor: the number of local experts having access to one feature. LF = Locality_Factor: the portion of whole feature space to be considered by a single local classifier. ،• روشی برای ایجاد یک طراحی سریع )ساده و طبعا تصادفی(البته به صورت متوازن • ایجاد کالسه کننده‌های تقریبا هم‌قدرت Set Number of Classifiers = l = 1/ LF Number-of-Features-per-Classifier = fpc Rank the features according to the effect on CCR using Forward Selection/Backward Elimination Make l bins of sorted features; each contains fpc features. Randomly select fpc features from these l bins to assign to the feature subspace of local experts. We have l different portions of feature space: f1,…, fl 29 The set of features: F, Number of Classes = |C| Pre-Knowledge based Sun-sapce Method Number of Experts = l Divide the features into two groups: expensive and inexpensive Assign all inexpensive features to all local experts Randomly distribute the expensive features among local experts Map all the training instances to the Decision Space Using the decision of each local expert Cluster the Decision Space using Kmeans method into CN clusters 2<T<MaxT ClustMemij = number of members of class i in the cluster j CN SI  j 1 maxi (clustMemij ) C برایPKSM ‌سیاست هاLDE طراحی توزیع ویژگی‌های کم‌هزینه میان بیشتر خبره‌ها اولویت دادن به طراحی که ویژگی‌های پرهزینه را به تعداد محدودی از خبره‌ها منتسب نماید بر طراحی‌ دیگری که بدون توجه به هزینه‌ی الزم برای به دست آوردن ورت یکنواخت و برc آنها را به ص،هر ویژگی اساس تصادف میان همه‌ی خبره‌ها تقسیم می‌نماید • • 100  clustMem i 1 ij Yes Is Separability Index acceptable? We have l different portions of feature space: f1,…, fl called cls(i).f where 30 داده‌ها و روش‌های محک • داده‌ها: – یازده داده‌ی انتخابی از مجموع ‌ه داده‌های UCI ML Repository • روش‌های فضای ویژگی: – یک طبقه‌بند k-NNدر فضای ویژگی‌ – روش Bagging – روش Adaboost • روش‌های فضای تصمیم: – یک طبقه‌بند k-NNدر فضای تصمیم – روش‌های ترکیب تصمیم: • • • 31 برچسب خروجی :روش رای‌گیری اکثریت رتبه‌ی تصمیم‌های خروجی :روش Borda-count خروجی پیوسته به فرم تصمیم‌های احتماالتی پسین :روش OWAبا وزن‌های بهینه به‌دست‌آمده از الگوریتم یادگیری گرادیان نزولی معیارهای ارزیابی پایه • کارایی :متوسط نرخ تشخیص (در 5بار اجرا) روی داده‌ی آزمون • قوام نسبت به نحوه‌ی تفکیک ویژگی‌ها :واریانس نرخ تشخیص (در 5بار اجرا) روی داده‌ی آزمون • نسبت مشورت ‏Number ‏of Consulted ‏LDEs ‏Totalnumber ‏of LDEs 32 ‏Consultati ‏onRatio عملکردADFL+BRSM • شکست رقبای ترکیب تصمیمی خود از لحاظ نرخ تشخیص نهایی – حتی در موXاردی که نرخ تشخیص هر خبره به صورت محلی پایین است. • • 33 مشورت هوشمندانه ‌ADFLبعد از آموزش در هر حالت فقط با خبرگانی که سودمند تشخیص داده شده‌اند (چنانکه نسبت مشورت نشان می‌دهد) در مورد برخی داده ها شکست از Adaboostو Bagging • • عملکرد+PKSM ADFL افزایش معنادار نرخ تشخیص نهایی و غلبه بر روش‌های رقیب هم در دسته‌ی ترکیب تصمیم و هم Adaboostو Bagging واریانس کم در نرخ تشخیص نهایی – قوام نسبت به چگونگی شکست کل داده به مجموعه‌های آموزش و آزمون و نیز شکست مجموعه‌ی ویژگی‌ها میان خبرههای مختلف ‌ • لزوم حداقل درکی از معنای ویژگی‌ها! 34 آزمون عالمت( ،)psویلکوکسون ( )pwو) t (ptمیان ADFL+PKSMبر اساس بهترین طبقه‌بند پایه و روش‌های رقیب ‏Bagging+kNN ‏Adaboost+S ‏VM ‏Adaboost+k -NN ‏Ensemble(B )ests ‏Fusion(Be )sts ‏Win/draw/loss 9/0/2 8/2/1 11/0/0 7/2/2 10/0/1 ‏PKSM+ADFL(Be )sts ‏ps =0.0654 ‏pw=0.0048 ‏pt=0.0068 ‏ps=0.0117 ‏pw=0.0097 ‏pt=0.0123 ‏ps=0.0009 ‏pw=0.0009 ‏pt=0 ‏ps= 0.0654 ‏pw= 0.0322 ‏pt= 0.0406 ‏ps=0.0117 ‏pw=0.0019 ‏pt=0.0009 ADFL+PKSMب ا ب هترین LDEها (م ستقلاز ن وع ا لگوریتم ی اد گیریپ ایه) : از بهترین روش‌های رقیب در دسته‌ روش‌های اجماع خبرگان با 90درصد اطمینان و از بهترین روش‌های رقیب در دسته‌ی ترکیب تصمیم با 95درصد اطمینان ،بهتر عمل می‌کند. 35 معیارهای ارزیابی تکمیلی • قوام نسبت به 2گونه‌ی مختلف از خطاهای زمان طراحی خبرگان – خبره‌ای که در حالت باینری ،صد در صد و در حالت چندکالسه با الگوی مشخصی به طور هدفمندی اشتباه می‌کند. – خبره ای که نظر تکراری ارائه می‌نماید. 36 ‌های تکراریFتست خبره Majority voting 66.3 (0.03) 76.6 (0.06) 75.3 (0.03) k-NN on Decision Space 72.3 (0.07) 75.8 (0.05) 60.1 (0.07) 71.2 (0.01) 69.1 (0.05) 68.1 (0.07) 86.20 (0.003) 67.1 (0.02) 66.6 (0.02) 71.3 (0.05) 80.0 (0.02) ADFL 1.9/4 76.34 (0.001) 2.1/5 3.4/5 3.3/6 85.34 (0.04) 65.5 (0.01) 63.81 (0.007) 70.45 (0.05) 78.2 (0.01) 62.95 (0.02) 54.04 (0.001) 64.35 (0.06) 77.91 (0.001) 60.13 (0.05) 50.20 (0.04) 60.7 (0.03) 66.72 (0.005) 82.9 (0.001) 75.88 (0.06) 65.39 (0.002) 75.00 (0.04) 81.33 (0.001) 82.50 (0.009) 71.92 (0.03) 65.45 (0.07) 76.05 (0.08) 80.59 (0.009) 2.9/5 78.40 (0.003) 3.1/6 2.1/5 OWA (71.2) With duplicated LDE Dataset (LDEs’ Base learner) Diabetes (NB) Hepatitis (SVM) Description (Avg. CCR of LDEs) Original (61.5) With duplicated LDE (61.5) Original (74.5) With duplicated LDE (74.5) Dataset داده‌‌های چندکالسی Maj. Vot. k-NN on Decision Space 68.60 (0) ADFL Description (Avg. CCR of LDEs) Original (64.5) With duplicated LDE (64.5) Original, (71.2) Borda Count Consultat ion Ratio 2.4/6 OWA داده های باینری Bordacount Consultatio n Ratio (LDEs’ Base learner) Vehicle (k-NN) Waveform (NB) 37 الگوی مشورت در تست تکرار ‏Probability of ‏Consultation خبره‌ی شماره 5کپی شده و ‌ خبره‌ی 6به تحت عنوان ‌ مجموعه خبره‌ها در داد ‌ه هپاتیت افزوده شده است .در انتهای یادگیری دیده می‌شود که هر دو خبره به میزان مساوی برای مشورت کردن محتمل هستند ‏Probability of ‏Consultation 38 نتایج آزمایش افزودن خبره‌ی تکراری • این افزونگی بر خالف روش‌های رایج ترکیب تصمیم ،تاثیر مخربی بر نتیجه‌ی روش پیشنهادی نداشته است. – قوام روش به چنین خطاهای زمان طراحی! – نتایج روش‌های ترکیب تصمیم ،تاثیر مستقیم این آزمایش را در خروجی نشان می‌دهند. • عامل یادگیر در ما هم با یک خبرcه و هم با کپی آن مشورت نمی‌کند. 39 ودنcنتیجه‌یآزمایش افز تصمیم‌گیرهای به طور سیستماتیک خطادار ADFL OWA Borda Count 1.9/4 76.34 (0.001) 66.3 (0.03) 1.1/5 100 (0) 59.5 (0.01) ADFL 3.1/4 97.25 (0.0003) k-NN on Decision Space Avg CCR of LDEs Pima Indian Diabetes 76.6 (0.06) 75.3 (0.03) 72.3 (0.07) 64.5 Original 70.25 (0.04) 68.9 (0.08) 100 (0) 51.6 With outputinverted LDE OWA Borda Count Majority Voting k-NN on Decision Space Description (Avg. CCR of LDEs) 85.5 (0) 82.5 (0.012) 75.00 (0) 95.5 (0) Original (97.25) With systematically wrong LDE (81.04) Original (89.3) With systematically wrong LDE (74.4) 1.2/5 100 (0) 65.9 (0.06) 73.7 (0.002) 62.03 (0.03) 100 (0) 3.4/5 95.02 (0.0001) 63.95 (0.01) 59.30 (0) 74.18 (0.002) 90.16 (0.0002) 1.5/6 100 (0) 52.78 (0.05) 48.72 (0.001) 63.80 (0.05) 100 (0) Dataset (LDEs’ Base learner) Dermatology (NB) در حالت چندکالسی Consultat ion Ratio Majorit y voting در حالت باینری Consultation Ratio Satimage (k-NN) 40 الگوی مشورت در تست خبره‌ی خطاکار 41 ‏Probability of ‏Consultation در پایان یادگیری ADFLبیشترین خبرهی مشورت را با ‌ خطادار سیستماتیکی انجام می‌دهد بحث در مورد طراحی خبره‌های محلی شکست ADFL + BRSMاز Adaboostو ‏Bagging مجموعههای داده‌ای ‌ روی اغلب نمونههای آموXزشی در فضای تصمیم ‌ بررسی توزیع (فضای تصمیمی متشکل از خبره‌های محلی طراحی شده بر اساس روش BRSMکه بیش از بقیه با آنها مشورت شده بود). مشاهده :یک فضای تصمیم در هم که به ندرت می‌شد مرز تصمیم مشخصی میان نمونه‌های کالس‌های مختلف متصور شد. نتیجه :بسیار دشوار است که ADFLبتواند با قراردادن گوسی‌ها و تنظیم میانگین وX واریانس آنها ،مرز تصمیم مشخصی در فضای تصمیم شکل بدهد و به کارایی مناسب و مورد انتظار دست یابد. 42 بحث در مورد طراحی خبره‌های محلی()2 • روش یادگیری پیوسته با بخشبندی نرم فضای ورودی ،تعدادی هست ‌ه‌ی گوسی در نواحی مختلف فضای یادگیری قرار می‌دهد. – سپس میانگین و واریانس آنها را در طول زمان با ورود نمونه‌های یادگیری جدید ،تنظیم (به‌روز) می‌کند. • در هم رفتگی زیاد نمونه‌های یادگیری باعث افزایش تعداد هسته‌های گوسی‌می‌شود و کار را دشوار و بعضا غیرممکن می‌کند. • پس باید تا حد cامکان فضای تصمیم اولیه را گرانول‌بندcی شده به ADFLتحویل بدهیم. 43 شکل‌دهی فضای تصمیم.....           تصویر پایه اقتباس از DHS PR book: Ch2. page        44 بحث در مورد طراحی خبره‌های محلی()3 • تعریف معیاری با نام Seperability Indexبرای سنجش میزان قابلیت خوشه‌بندی فضای تصمیم (مطلوبیت موردانتظار در فضای تصمیم) • روش PKSMبر اساس بیشینه نمودن این معیار ،ویژگی‌ها را انتخاب می‌نماید. تعداد خوشه‌ها تعداد اعضاء کالس i در خوشه j ‏100 ) maxi (clustMemij ‏C ‏ clustMem ‏ij 45 ‏i 1 ‏CN ‏SI  ‏j 1 نتایج طراحی خبره‌های محلی به روش PKSM • • • • غالبا افزایش متوسط دقت خبره‌های محلی و کمیت جداپذیری در فضای تصمیم هر دو بر بهبود کارایی نهایی ADFLتاثیرگذار هستند. بهبود متوسط دقت خبره‌های محلی در اکثر موارد ،موجب جداپذیری بهتر هم می‌شود ولی عکس این شرایط وجود ندارد. به صورت تجربی مشاهده شد که ضریب همبستگی میان جداپذیری و متوسط دقت خبره‌های محلی یک عدد منفی و کوچک است. ‏cت ‌ارزcیابcیاcس : SIیcکمcعیار پccیش – آیا خبره‌های طراحی شده (حتی با متوسط قدرت کم) به صورت بالقوه برای ADFLمناسب هستند یا خیر؟ • معموال طراحی خبره‌هایی با متوسط قدرت باال در عمل دشوار است در حالیکه افزایش جداپذیری‌به مراتب عملی‌تر است. 46 تحقق چارچوب پیشنهادی این رساله در: ‏ حوزه برون‌خط حوزه برخط 47 تحقق چارچوب در حوزه‌ی برخط ( METALبرای یادگیری رباتیکی) 48 در حوزه‌ برخط • باز هم به دنبال حل مسئله کنترل توجه از طریق تبدیل آن به فرم یک مسئله یادگیری ترکیب تصمیم هستیم. • اما داده‌ی آموزشی نداریم: – پس ایجاد خبره‌های محلی چگونه باید باشد؟! • قطعا در این حوزه نیازمند تعامل با محیط برای آموزش خبره‌های محلی هستیم. 49 METAL= Mixture of Experts Task & Attention Learning Structural Components Learning Phases TAs TAsTAs ACL Expert Advisor FOA Bayesian Continuou s RL Evaluation Measures Learned Behavior Quality 50 METAL= Mixture of Experts Task & Attention Learning Structural Components Learning Phases TAs TAsTAs ACL Expert Advisor FOA Bayesian Continuou s RL Evaluation Measures Learned Behavior Quality 51 فاز اول :یادگیری غیرفعال مبتنی بر نمایش – خبره‌ی انسانی به عنوان مربی و نقاد عمل می‌کند. – ریزعامل ها • • • • حالت محیط را به طور جزئی ادراک می‌کنند. کنش مربی را حس می‌کنند فیدبک محیط را دریافت می‌کنند. سپس ارتباط میان این اجزاء را در ذهن خود تقویت می‌کنند. خبره ای که در هر 3 فاز نقاد است ولی در فاز 1نقش مربی .را هم بر عهده دارد ‏Environment ‏reward ‏FOA ‏reward ‏reward ‏TAl ‏reward ‏TA2 ‏TA1 ‏Expert ‏Advisor – عامل مشاهده‌گر کامل : • • • • حالت را به طور کامل ادراک می‌کند. کنش مربی را حس می‌کند. فیدبک محیط را دریافت می‌کند. سپس ارتباط میان این اجزاء را در ذهن خود تقویت می‌کند. عاملی که کل فضای ادراکی را مشاهده می کند و درفاز 1 .و 2به کار گرفته می‌شود 52 ‏Motor ‏Action ‏sTAi [O1i ,O2i ,...,Ocii ], i 1,2,...,l ریزعاملهای داخل ذهن ربات که هر یک بخشی از فضای ادراکی را مشاهده و در آن یادگیری وظیفه را .انجام می‌دهند ] sFOA [sTA , sTA ,...,sTAl 2 ‏TAi ‏error * ‏EA 1 * ‏EA ‏QTAi (sTAi ,a ) QTAi (sTAi ,a ) TD * * ‏FOA ‏QFOA (sFOA ,aEA ) QFOA (sFOA ,aEA ) TDerror METAL= Mixture of Experts Task & Attention Learning Structural Components Learning Phases TAs TAsTAs ACL Expert Advisor FOA Bayesian Continuou s RL Evaluation Measures Learned Behavior Quality 53 فاز دو :یادگیری فعال اولیه • • • • • • نقش خبره به صرفا یک نقاد محدود ‏Environment می‌شود. ‏reward یک مرکز ترکیب در خروجی تصمیم‌سازی ‏reward ‏reward ‏reward این قرار می‌گیرد ‏TA ریزعامل‌ها و عامل‌مشاهده‌گر کامل تصمیم ‏FOA ‏TA حریصانه‌ی خود را اتخاذ می‌کنند و آن را به همراه درجه پشتیبانی به مرکز ترکیب ‏Fusion نهایی می‌فرستند. ‏Center تصمیم نهایی توسط مرکز ترکیب و بر اساس ماکزیمم نمودن یک معیار خبرگی ‏Motor انجام می‌شود. ‏Action بدین ترتیب کنش انجام می‌شود و سیگنال تقویت از محیط دریافت می‌شود. | aTA argmax(Q(sTA , ak )),k 1,2,...,| A ‏k وقتی یادگیری ریزعامل‌ها عمگرا می‌شود، |aFOA argmax(Q(sFOA, ak )),k 1,2,...,| A عامل مشاهده‌گر کامل حذف می‌شود و ‏k ریزعامل‌ها تبدیل به خبره‌های محلی می‌شوند. ))afusionargmax( p(aTA | sTA ), p(aTA | sTA ),...,p(aTA | sTA ), p(aFOA | sFOA ‏l ‏TA2 1 ‏i 54 ‏l ‏l 2 2 1 ‏i 1 ‏a METAL= Mixture of Experts Task & Attention Learning Structural Components Learning Phases TAs TAsTAs ACL Expert Advisor FOA Bayesian Continuou s RL Evaluation Measures Learned Behavior Quality 55 یادگیری کنترل توجه:فاز سوم Motor Action Environment reward reward TAi TA2 TA1 reward Perceptual Attention Shift TAl … ), 1 TA ) A1 T |S A| (a ,P (a P(a 1|STA i),…,P A| |S a1 P( Obs |S TA i) Attention Learning Task Learning Decision support of an expert about all actions ACL Motor Action AACL  AMotor  APerceptual  یک خبره را فعالسازی کند و با آن ،مشورت نماید .یک کنش موتوری انجام بدهد – – نیاز به یک روش یادگیری پیوسته حالت ‌و گسسته کنش Bayesia n RL Aperceptual{ConsultTA 1, ConsultTA 2 ,...,ConsultTA l} sACL [(DTA1 ||null)...(DTAi ||null)...(DTAl ||null)] توجه کردن به نظر یک نفر ،(ریزعامل) یا مشورت کردن با وی به معنای درخواست از او بر پردازش فضای سنسوری خودش و ارائه نمودن تصمیم پیشنهادی‌اش به . استACL عامل دو دسته کنش کامالACL عامل :متفاوت به لحاظ ذاتی دارد  DTAi  P(actionj | sTAi ) AMotor j 1 56 • • METAL= Mixture of Experts Task & Attention Learning Structural Components Learning Phases TAs TAsTAs ACL Expert Advisor FOA Bayesian Continuou s RL Evaluation Measures Learned Behavior Quality 57 معیارهای ارزیابی • از منظر یادگیری: – پیشرفت یادگیری بر اساس متوسط پاداش دریافتی که عامل در ضمن یادگیری به دست می‌آورد – متوسط پاداش تجمعی دریافتی در حین تست – متوسط تعداد گام‌های مشاهده را که عامل در هر حالت برمی‌دارد • یک کمیت نزولی در طول زمان نشانگر آن که عامل به مرور ،خبره‌های دارای دانش الزم در هر موقعیت را شناسایی نموده‌است. • از منظر رفتاری: – تعداد تصادف‌ها – نرمی مسیر رانندگی – اتخاذ سرعت مناسب 58 تحقق چارچوب در یادگیری رانندگی Highway Driving Skill Not to Collide an Obstacle Bypassing stalled cars Driving in road boundary Passing slow cars Approach with good speed Following some rules Keeping vehicle inside lanes Visio n IR عدد خبره برای6 مدالیتی بینایی 59 موتوری و ادراکی:تابع پاداش پاداش موتوری No No Yes Yes State Violate Rules? (Between Lines Driving?) Off the Road boundary? Collision? Approach with inappropriate speed? No Yes Yes IR and %Red % off the road bottom area of the robot %black, %white, %green and %blue Difference between current and max speed w1 w2 w3 w4 No No Punishment ! Punishment Vision cost for FOA Costs of consulting TAs Costs for 6 areas of Vision Equal costs for 8 IR sensors پاداش ادراکی -1 Equals with Sum of Vision costs for TAs, That is -11= - 2  4 - 1.5  2 -2 -1.5 -2 -2 -1.5 -2 Vision + IR cost for Fusion Center Equals with Sum of Vision and IR costs for TAs, That is -12= - 2  4 - 1.5  2 - 1 60 متوسط پاداش دریافتی ضمن یادگیری -10 FOA Fu si ng t he Dec i s i ons(Ph as e II) ACL(Pha se III) To t a l Ac c u m u l a t e d Re wa rd -12 -14 -16 -18 -20 -22 0 200 400 600 epi sode 800 1000 1200 61 متوسط تعداد گام‌های برداشته شده ضمن یادگیری 62 ‏Percent of Bins of Perceptual Steps ‏Selected by ACL با تکمیل شدن روند یادگیری ،گام‌ها حساب‌شده‌تر برداشته .می‌شوند رانندگی بر اساس چارچوب METAL 63 جمع‌بندی :یادآوری دیدگاه پیشنهادی تعریف یک مسئله یادگیری در فضای ادراکی چندبعدی ایده‌ی توجه :انتخاب ترتیبی و بر اساس موقعیت و با کنترل هزینه بینش (Intuitio )n + طراح خبره طراحی جمع خبرگان یادگیری ‏Attentive Decision ‏Fusion 64 1 3 2 65 نتیجه‌گیری بر اساس ایده‌ی اصلی • از منظر ترکیب تصمیم – یادگیری ترتیب مناسب مشورت با تصمیم‌گیرهای محلی به ازاء موقعیت‌های مختلف – یادگیری سیاست مشورتی به گونه‌ای محلی به جای یادگیری یک استراتژی مشوXرت یکسان روی کل فضای تصمیم • این ویژگی به ویژه وقتی تصمیم‌گیری در زیرفضاها از تصمیم‌گیری در فضای اولیه به گونه‌ی دقیق‌تری امکان‌پذیر باشد ،خیلی مطلوب است. • ویژگی "محلی عمل نمودن" در فضای تصمیم ،دستی طراحی نمی‌شود بلکه یاد گرفته می‌شود. – ایجاد یک درجه‌ی آزادی در طراحی تصمیم‌گیرهای محلی :کافی است تنها در بخشی از فضای داده به خوبی عمل نمایند. از منظر توجه – کمینه نمودن هزین ‌ه و تعداد مشورت‌ها و یافتن تصمیم‌گیرهای مطلع‌تر – به صورت ترتیبی و بر اساس موقعیت • از منظر کاربرد – یک سیستم یادگیرنده‌ی پشتیبان تصمیم با کاربرد در هر دو حوزه‌ی برخط و برون‌خط از یک منظر پژوهشی نسبتا متفاوت – ارائه ایده‌هایی در مورد ساختن تدریجی درخت تصمیم به کمک یادگیری تقویتی • • 66 بازگشت نتیجه‌گیری از تحقق در حوزه برون‌خط • • • • • کارایی مناسب در مواجهه با رقبای شناخته شده‌ی حوزه ویژگی و تصمیم قابلیت یادگیری انتخابی/توجهی ترکیب تدریجی تصمیم (در مقایسه با روش‌های استاتیک که از همه‌ی ورودی‌ها استفاده می‌کنند). قابلیت بهره گیری از طبقه‌بندهای محلی که لزوما هم خیلی خوب طراحXی نشده‌اند. توانایی مدیریت برخی خطاهای رایج زمان طراحی (از قبیل تکرار یک خبره در مجموعه‌ی خبرگان که موجب اعمال نظر مضاعف می‌شود و نیز خبره‌هایی که به صورت هدفمند نظر خطادار اعالم می‌نمایند) و انتخاب بهترین عکس‌العمل در قبال آنها. توانایی در اختیار قرار دادن نحوه‌ی رسیدن به جواب بهینه عالوه بر اینکه خود پاسخ نهایی را هم در اختیار فرد تصمیم‌گیر قرار می‌دهد. بازگشت 67 محدودیت‌های به‌کارگیری در حوزه برون‌خط • اگر با یک مسئله تصمیم‌گیری سروکار داریم که در مورد آن ،نظرات خبره‌های گوناگون وجود دارد • یا به سادگی می‌توان نظرات این خبره‌ها را تهیه یا شبیه‌سازی نمود – با تقسیم ویژگی‌ها بر اسXاس BRSMیا PKSMخبره های ضعیف ایجاد نمی‌گردد • یعنی SIرا بتوان تا حد مناسبی افزایش داد که فضای تصمیم مناسب ،قابل ایجاد باشد • نحوه‌ی ترکیب مناسب این تصمیم‌ها برای تصمیم‌گیری نهایی معلوم نبوده ،استفاده‌ از همه‌ی آنها هم هزینه‌بر باشد • هدف ،کاهش هزینه‌ی تصمیم‌سازی بوده ،تحقق این کاهش هزینه از طریق مشورت با خبره‌ها پذیرفتنی باشد بازگشت 68 گام‌های آتی برای ادامه کار در حوزه برون‌خط • ارائه روش‌های کارآمدتر برای ساختن طبقه‌بندهای محلی • آزمودن کارآمدی این روش در مسئله‌ی یادگیری چندین هسته‌ای – چون در روش‌های مبتنی بر Kernelمثل SVMهدف آن اسXت که جداسازی در فضای با بعد باالتر ولی جداپذیر خطی صورت بگیرد ،شاید این روش جایگزین خوبی برای جداپذیر نمودنی که الزمه کار است ،باشد. • تشکیل ساختار درختی ترکیب تصمیم با هدف نشان دادن برتری این روش بر روش‌هایی که در تشکیل درخت ،تنها نگاهی به سودمندی هر گام در شکاندن فضای ادراکی دارند (مانند Entropy- )based measure of impurity بازگشت 69 نتیجه‌گیری از تحقق در حوزه برخط • • • • • • 70 توزیXع نمودن دشواری یادگیری در فازهای متوالXی :بار اصXلی یادگیری وظیفه در فاز اول و دوم ،بار اصلی یادگیری کنترل توجه در فاز سوم. توانایXی یادگیری در یXک فضای جXایگزیXن و مناسXب بXه جای فضای ادراکی چندبعدی اولیXه بXا ویژگی‌هایXی از قبیXل توانایXی اسXتفاده از دانش‌ خبره‌های متفاوت ،احتمال بدنمایXی کXم و بXا ابعادی کXه بیXش از ابعاد نسXخه معادل ادراکی قابل کنترل است. توانایی نادیده گرفتن ابعاد نامرتبط به وظیفه در هر وضعیت یادگیری انجام وظیفه‌ی رانندگXی بXا تعداد محدودی شیفXت توجXه در یک فضای پیوسته حالت که نمونه‌ای از وظایف رباتیکی دنیای واقعی است ارائه‌ی یXک راهکار نمونXه برای تعریXف سXلسه مراتبXی تابXع پاداش برای کاهش حداکثری ابهام در یادگیری یک وظیفه‌ی متنوع به لحاظ عملکردی ارائه‌ی یک راهکار نمونه برای طراحی عامل‌های یادگیر یک وظیفه‌ی رباتیکی بازگشت هدف از”ارزیابی میزان بدنمایی“ • با محاسبه حد باالی احتمال رخداد بدنمایی در فضای تصمیم نشان دادیم که با انتقال به فضای تصمیم ،بر خالف cتصور احتمالی، احتمال بروز بدنمایی را افزایش نداده‌ایم. • نحوه محاسبه: – – – 71 جزئیات بیشتر در صورت لزوم – – مساوی قرار دادن مختصات دو نقطه در فضای تصمیم تفکیک معادله به اجزاء سازنده‌اش و تقریب کمیت‌های پیوسته با کمیت‌های گسسته متناظر فرمولبندی مسئله ”احتمال بروز این تساوی“ در قالب یک مسئله آنالیز ترکیبی معادل پیدا کردن پاسخ به یک فرم بسته بازگشتی بررسی صحت فرم بسته به کمک روش تکرار زیاد به صورت عددی محدودیت‌های به‌کارگیری در حوزه‌ی برخط • • • • • • اگر با یک مسئله‌ی یادگیری رباتی مواجه هستیم که فضای ادراکی آن چندبعدی است اگر استفاده از کل فضای ادراکی به یکباره برای یادگیری ربات بسیار پرهزینه باشد، شهای ربات قابل گسسته‌سازی و در مقایسه با ابعاد اگر فضای کن ‌ فضای ادراکی بسیار محدودتر باشد اگر طراحی تابع پاداش به صورتی ترجیحا سلسله‌مراتبی شدنی باشد اگر یادگیری در زیرفضاهای جداگانه به دلیل بدنمایی ذاتی شدید ،با مشکل عدم همگرایی مواجه نباشد اگر بعد فضای تصمیم (حاصلضرب بعد فضای کنش‌های ربات در تعداد خبره‌های محلی) با توجه به روش یادگیری پیوسته‌ای که به‌کار گرفته‌می‌شود ،پذیرفتنی باشد. بازگشت 72 گام‌های آتی برای ادامه کار در حوزه برخط • • • • 73 یافتن یک فضای فشرده‌تر به جای بازنمایی کنونی فضای تصمیم بخشبندی و یافتن خوشه‌هایی به صورت اتوماتیک در فضای ادراکXی به جای خبره‌هایی که در این روش به صورت دستی و بر اساس قواعد یافته‌ای طرXاحی شدند. اعمال روش در یک وظیفه‌ی دیگر به گونه‌ای که نیاز به در نظر گرفتن مشاهدات گذشته نیز موجود باشد استفاده از تکنیک‌های انتقال دانش قبال یادگرفته شده برای سرعت بخشیدن به فرایند یادگیری بار دیگر از Attentionشما متشکرم! 74 75 آقای محمدحسن ذکائی: بحثهای مفید در مورد مباحث مرتبط به یادگیری 76 آقای آرش آرامی: بحثهای مفید در مورد توجه آقای محمد اجل‌لوئیان: ویرایش مقاالت و بحثهای مفید در مورد توجه خانم نرگس نوری: بحثهای مفید در مورد توجه آقای محمدافشار: طراحی واسط WEBOTSو ‏MATLAB آقای هادی فیروزی: طFراحی روش ‏Bayesian RL

51,000 تومان