صفحه 1:
برسش 100
ياسخبرتردر
Top 100
Questions
and Answers
in,Deep
صفحه 2:
1 یادگیری عمیق چیست؟
یادگیری عميق زیرشاخهای از یادگیری ماشینی است که بر آموزش شبکههای عصبی مصنوعی با لایهای متعدد برای یادگیری و پیشبینی حجم
عظیمی از دادهها تمرکز دارد. از ساختار و عملکرد مفز انسان الهام گرفته شده است. جایی که هر لایه از نورونها ویژگیهای پیچیدهتر را از دادههای
ورودى بردازش Se
در یادگیری عمیق , شبکههای عصبی با لایههای مخفی متعدد. که به عنوان شبکههای عصبی عمیق شناخته میشوند برای یادگیری خود کار نمایش
سلسله مراتبی دادهها استفاده میشوند. این شبکهها با استفاده از مجموعه دادههای برچسب گذاریشده بزرگ برای تشخیص الگوهاء طبقهبندی اشیاء
پیشبینی و انجام سایر وظایف پیچیده. آموزش داده میشون. الگوريتمهای یادگیری عمیق فرآیندی به نام پس انتشار را به کر میگیرند. که در آن
خطاهای پیشبینیها به عقب از ریق شبکه منتشر میشوند تا وزنها و بیاسهای نورونها را تنظیم کندد و به طور مکرر عملکرد مدل را بهبود
یادگیری عمیق در حوزه های مختلف از جمله بینایی کامپیوتر. پردازش زبان طبیعی, تشخیص گفتار. سیستم های توصیه و بسیاری موارد ديكر به
موفقیت چشمگیری دست یافته است. لین فناوری در کارهایی مانند طبقهبندی تصویر تشخیص اشیاء ترجمه زبان و سنتز گفتار از تکنیکهای سنتی
یادگیری ماشین بهتر عمل کرده و بهپیشرفتهایی در وسایل نلیه خودران, دستیران مجازی, تشخیصهای پزشکی و موارد دیگر کمک کرده است.
صفحه 3:
۲ یادگیری عمیق چه تفاوتی با یادگیری ماشین سنتی دارد؟
یادگیری عمیق از چندین جنبه کلیدی با یادگیری ماشین سنتی متفاوت است:
۱. تملیش داده ها: در یادگیری ماشین ستتی. استخراج و انتخاب ویژگی ها مراحل بسیار مهمی هستند که در آن کارشناسان دامنه به صورت دستی
ویژگی های مرتبط را از داده های خام مهندسی می کنند. از سوی دیگر, یادگیری عمیق, نمایشها را مستقيما از داددها ياد م ىكيرد و نیز به مهندسی
ویژگی صریح را از ین میبرد. شبکه های عصبی عمیق به طور خودکار نمایش های سلسله مراتبی داده ها را در سطوح مختلف انتزاعی یاد می گيرند.
۲ یدگیری ویژگی: الگوریتمهای یادگیری ماشین سنتی اقلب بر ویژگیهای دست ساز برای آموزش مدلها منکی هستند.الگوریتمهای یادگیری عمیق
ویژگیها را بهطور خودکار از دادههای خام یاد میگیرند. وبه مدل اجازه میدهند الگوها و نمایشهای پیچیدهای را کشف کند که استخراج دستی آنها
ممکن است چالس برانگر باشد.
۳ پیچیدگی معماری: مدلهای یادگیری عمیق با عمقشان مشخص میشوند که به وجود لایههای متعدد نورونهای به هم پیوسته اشاره دارد. این
لایهها به مدل اجازه میدهند تا نمایشهای بيجيدهترى از دادهها را بیاموزد. الگوریتمهای یادگیری ماشین سنتی معمولاً معماری سادهتری دارند ماتند
مدلهای خطی یا درختهای تصمیم.
۴عملکرد بر روی داده های مقیاس بزرگ: یادگیری عمیق در مدیریت داده های در مقیاس بزرگ. بهتر است.با افزایش اندازه مجموعه داده. شبکه های
عصبی عمیق ظرفیت یادگیری الگوهای پیچیده و تعميم خوبی را ارن. الگوریتمهای یادگیری ماشین سنتی ممکن است در مدیریت مجموعه دادههای
بزرگ مشکل داشته باشند و ممکن است روابط پیچیده را به اندازه مدلهای یادگیری عمیق درک نکنند.
صفحه 4:
۲ ادامه ..؟
۵ محاسبات و
دارند. فرآیند آموزش معمولاً امل
وزش: مدل های یادگیری عمیق اغلب به منایع محاسباتی قلبل توجهی به وه برای آموزش
بهینهسازی تکراری با استفاده از نزول گرادیان و پس انتشار است که میتوند از نظر محاسباتی فشرده باشد.الگوریتمهای یادگیری ماشین سنتی اغلب
به منابع محاسباتى كمترى نياز دارند و مى توانند يه طور موثر در مجموعه دادههای کوچکتر آموزش داده شوند
۶ تفسیرپذیری: مدل های یادگیری عمیق, به ویئّه شبكه هاى عصبى عميق. به دليل معمارى بيجيده و يارامترهاى متعدد. اغلب «جعبه سياه» در نظر
گرفته می شوند. تفسیر استدلال پشت پیش بیتی ها یا تصمیمات آنها می تواند چالش برانگیز باشد. الكوريتيوهاى يادكيرى ماشين سنتئء مانند
قابل تفسير
درختهای تصمیم یا مدلهای خطی, میتوانند رى ارائه دهند و به کاربران اجازه دهند اهمیت ویژگیهای مختلف را درك كنند.
به طور کلی, یادگیری عميق در کارهایی که مقادیر زیادی داده در دسترس است و الکوهای پیچیده نیاز به یادگیری خودکار درنده موفقیت قابل توجهی
تشان داده است. تکتیکهای بادگیری ماشین ستتی هنوز در ستاریوهایی با دادههای محدود با زمانی که قلبلیت تفسیر بسیار حیاتی است. ارزشمند.
هستند.
صفحه 5:
۳. اجزای کلیدی یک سیستم یادگیری عمیق چیست؟
یک سیستم یادگیری عمیق معمولً از چندین جزء کلیدی تشکیل شده است که برای انجام وظایف و آموزش مدلها با هم کار میکند. لین اجزاعبرتد از
.١ داده ها: داده های با کیفیت بالا و دارای برچسب مناسب برای آموزش مدل های یادگیری عمیق ضروری است. با توجه به مسئله داده شده . داده ها می توانند
در قالب های مختلفی مانند تصاویره متن: صدا یا داده های ساختاری باشند.
۲ شبکه های عصبی: یادگیری عمیق بر شبکه های عصبی متکی است که از لایه های به هم پیوسته نورون های مصنوعی تشکیل شده اند لین شبکه ها دارای
یک لایه ورودی. یک یا چند AY پنهان و یک لایه خروجی هستند. لایههای پتهان به شبکه اجازه میدهند تا ویژگی ها و الگوهای پیچیده را از دادهها ياد بكيرند.
۳. معماری: معماری یک مدل یادگیری عمیق به آرلیش خاص و اتصال لایه های شبکه عصبی اشاره دارد. معماریهای مختلف. مانند شبکههای عصبی کانولوشن
CNN) برای ددههای تصویری یا شبکههای عصبی بازگشتی (1[ا!3) بای دادههای متوللی,برای رسیدگی به وظلیف خاص و استفاده از ساختار ذاتی دادهها
طراحی شدهاند.
۴ تولبع فعال سازی: تولبع فعال سازی ,غیرخطی ها را در شبکه های عصبی معرفی می کنند و آنها را قادر می سازند تا رولبط پیچیده را مدل کنند و پیش بینی
های غیر خطی انجام دهند.توبع فعال سازی رایچ عبارتند از 136 (واحد خطی اصلاح شده), سیگموید و 8013
صفحه 6:
۳ ادامه ...؟
8 توابع زيان: تولبع زيان تفاوت بين خروجى بيش بينى شده مدل و.مقامير واقغى هدف را ساب مى كتند. لين توليع جه عنوان معيارى براى عملكرد
مدل در طول آموزش عمل مى كنند و فرآيند بهينه سازى را هدايت مى كنند. تمونه هايى از توابع زيان عبارتند از ميانكين aj AMIS) Us heya
انتروى متقايل: و زيان سافتيكس.
ع. الكوريتمهاى بهينهسازى: الكوريتمهاى بهينهدسازى. مانند نزول گرادیان تصادفی (90310) و انواع آسن (مانند ۷50۲0۵ ly Adam.
بهروزرسانی وزنها و بیاسهای شبکه عصبی در طول آموزش استفاده میشوند. هدف لين الكوريتم هابه حدافل رساندن تبع زیان و تنظیم پارامترهای
مدل برای بهبود عملکرد آن است.
۷ پس انتشارن پس انتتار یک الگوریتم اساسی است که برای محلسبه گرادیان تلیع زیان با توجه به وزن ها و بایلس ها در شبکه عصبی استفاده می
شود. سپس از لین گرادیان ها در مرحله بهینه سازی برای به روز رسانی پارمترها استفاده می شود و شبکه را فادر می سازد تا به صورت تکراری از داده
ها ياد بكيرد.
۸ تکنیکهای متظمسازی: تکنیکهای منظمسازی» مانند منظمسازی 1و 2اء حذف تصادفی(]لا01۳000) و نرمال سازی دستهای, برای
جلوگیری از بیش برازش و بهبودقبلیت تعمیم مدلهای یادگیری عمیق استفاده مىشوند. اين تكنيكها به كنترل بيجيدكى مدل و كاهش تأثير
ویژگیهای تويزدار يا غير مرتبط کمک میکنند.
صفحه 7:
۳ ادامه ...؟
4. معیارهای ارزیبی: معیارهای ارزیلبی معیارهای کمی را براى ارزيلبى عملكرد مدل هاى يادكيرى عميق ارلئه مى دهند. انتخاب معیارها به مستله مورد
نظر بستكى دارد. مانند دقت. درستى. نرخ يادآورى. ©1-5601] براى طبقه بندى. يا ميانكين مربعات خطا oly (MSE) وظايف ركرسيون.
زيرساخت سخت افزار و نرم افزار: يادكيرى عميق اغلب به منابع محاسباتى قلبل توجهى براى آموزش مدل هاى بزرك بر روى مجموعه داده های
كسترده نياز دارد. معمولاً از سخت افزارهایی با کارایی بالا مانتد (3۳۸) (واحد پردازش گرافیکی) یا لأ18 (واحد بردازش تنسور) براى تسريع آموزش
استفاده می شود. علاوه بر اين. کتابخانهها و چارچوبهای نرمافزاری تخصصی مانند ۳۷/۲۵۲6 16۳50۳۴10۷۷۰ یا 6۲25 ابزارها و انتزاع هايى
را برای ساخت و آموزش اراکه ميدهند.
صفحه 8:
۴ شبکه عصبی مصنوعی چیست؟
شبکه عصبی مصنوعی SL (ANN) مدل محاسیاتی است که از ساختار و عملکرد شبکههای عصبی پیولوژیکی ماندد مغر انسان لهام گرفته شده است. لین شيعه
پایه و اساس یادگیری عمیق است و به عنوان بلوک اساسی برای وظایف مختلف یادگیری ماشین عمل مى کند.
یک تبکه عصبی مصنومی از ره های به هم پیوسته ای به نام نورون هاى مصنوعى يا به سادگی قورون هاه تشكيل شده است. اين تورونها به لايتهايي
سازماندهی میشوند که معمولاً ايك لايه ورودى. يك يا جند لايه بنهان و یک لایه خروجی تشکیل شداند. هر نورون سیگنال های ورودی را دریافت می کند.
یک متاسیات را انجام می دهد ویک کل خروسی تولیه می کند که به تباير تورون على شيتكه ارال مى خيد
اتصالات بين نورون ها در شبكه با وزن نشان داده می شود ین وزن ها قدرت يا اهمیت سیگنال های ورودی را تعیین می کنند و در طول فرآیندیدگیری برای
يهبود #ملكره شبك #نظيم می شون علايه بر إين: هر نورين متمولا ای یک cies ps ater lid Sd SN ulead را راهم سی کند
محاسبات در هر نورون مصنوعی شامل گرفتن مجموع وزنی از ورودی هاء اعمال تلبع فعال سازی به مجموع و تولید یک خروجی است. تلبع فعال سازی, غیرخطی
ها را معرفی می کند و به شبکه اجازه می دهد تا الگوها و روابط پیچیده در داده ها را بیموزد.
در طول آموزش, شبکه های عصبی مصنوعی از فرآیندی به نام پس انتشاربرای تنظیم وزن ها و یاس ها بر اساس خطا یا اختلاف بین خروجی های پیش بینی
شده و اهداف واقعی شبکه به طور مکرر از داده های آموزشی یاد می گیرد. وزن ها و بایاس ها رابه روز می کند تا خطا را به حداقل برساند و تونلیی خود را برای
بيش بينى ذاقيق بهبوة بخشد
شبکههای عصبی مصنوعى sla oll توجهى در كارهاى مختلف از جمله تشخيص تصوير و كفتار. بردازش زبان طبيعى. تشخيص الكو و تصميمكيرى از خود
ای فد لين يه ها جر سد يريت سيب ربا دنه ها عاق تكد و من بولحد الكوها و ورگ هی رنه رها نز وروی عل بطم که نهر
به ابزارى قدرتمند در يادكيرى ماشینی و یادگیری عمیق تبدیل می کند
صفحه 9:
۵ مفهوم پس انتشار را توضیح دهید؟
پس انتشار یک الگوریتم اساسی است که در آموزش شبکه های عصبی مصتوعی استفاده سی شود لین الگوریتم شبکه را قلدر میسازد تا از دادههای
آموزشی برچسبگناریشده با تنظیم وزنها و بیاسهای نورونها به منظور به حداقل رساندن تفاوت بین خروجیهای پیشبینیشده و مقادیر واقعی
دادههاء یاد بگیرد.
لگوریتم پس انتشار در یک فرآیند دو مرحله ای کار می کند: كذر به جلو و كذر به عقب
لس گذربه جلو : در كذر به جلو. داده هاى ورودی به شبکه عصبی وارد می شود و فعال سازی هر نورون لایه یه لایه محاسبه می شود. با شروع از لایه
ورودی, ورودی ها در وزن های مربوطه ضرب می شوند. جمع می شوند و از یک تابع فعال سازی عبور می کنند تا خروجی هر نورون تولید شود. این
فرآیندبرای هر لایه تا رسیدن به لایه خروجی ثکرار می شود و پیش بینی های نهایی شبکه به دست مى آيد.
صفحه 10:
۵. ادامه ..
تا کثربه عقب. در گذوبه علب. خطلی بین خروجی های پیش بینی شکه و مقادیر واقعی دادم های آنوزشی مجاسیه مي شود سپس لین خطاید
عقب در شبکه منتشر می شود تا گرادیان های تابع زیان با توجه به وزن ها و بایاس ها محاسبه شود.
الگوریتم پس انتشار لين كراديان ها راجا استفاده از قانون زتجیره ای حساب محاسبه می کند. به طور مکرر شیب های تلبع زیان را لایهبه لایه محاسبه
مى کند. از لایه خروجی شروع مى شود و به سمت عقب حرکت می کند. سپس از گردیان ها برای به روز رسانی وزن ها و ایاس های نورون ها
استفاده می شود و به تدریج مقادیر آنها را برای به حداقل رساندن تابع زیان تنظیم می کنند.
در طول گذر به عقب. گرادیان ها در مشتق تبع فعال سازی ضرب می شوند تا حساسیت خروجی نورون به تغیرات در ورودی آن محاسبه شود. لین
فرآیند تا زملنی ادامه مییلبد که گرادیانها برای همه لایهها محاسبه شود و به شبکه اجازه میدهد تا وزنها و بایاسهای بهینه را یاد بگیرد که تفاوت
بین خروجیهای پیشبینیشده و مقادیر واقعی را به حداقل میرساند.
.با اتجام مکررگذر به جلو و عقب بر روی دستهای از ادههای آموزشی. الگوریتم پس انتشارپاامترهای شبکه عصبی را دقیق تنظیم میکند و تونیی آن
را برای پیشبینی دقیق بهبود میبخشد. لین فرآیند بهینهسازی تکراری تا زملنی ادامه مییلبد که شبکه به سطح رضایتبخشی از عملکرد همگرا شود یا
یک معیار توقف از پیش تعریفشده برآورده شود.
به طور کلی؛ پس انتشار یک جزء حیاتی از آموزش شبکه های عصبی است که آنها را قادر می سازد از داده ها یاد بگیرند و پارامترهای خود را برای
بهبود قابلیت های پیش بینی خود تنظیم کنند.
صفحه 11:
۶ نزول گرادیان چیست؟
نزول كراديان يك الكوريتم بهينهسازى است كه معمولاً در یادگیری ماشین و یادگیری عميق برایبهروزرسانی پرمترهای یک مدل بهطور مکرراستفاده
على انود يه ويزه جر زبينه افوزش شيعه هاي عصرى مفيد لدت
هدف اصلى نزول كراديان» به حداقل رساندن يك تلبع زيان معين است كه تفاوت بين خروجى هاى بيش بينى شده يك مدل و مقادير واقعى داده هاى
آموزشى را اندازه كيرى مى كند. با به حداقل رساندن تبع زین, مدل به دنبال بهبود عملکرد خود و بيش بينى هاى دقيق تر است.
اين الكوريتم نام خود را از مفهوم گرادیان گرفته است که نشان دهنده جهت و بزرگی تندترین صعود یا نزول یک تابع است. در مورد نزول گرادیان ۰
گرادیان در جهت تندترین نزول تابع زیان
در اینجا یک نمای کلی از الگوریتم نزول گرادیان آورده شده است:
۱. مقداردهی اوله:لگوریتم با مقداردهی اولیه ارامترهای (وزن و بایاس) مدل با مقادیر تصادفی یا مقادیر از پیش تعریف شده شروع مى شود.
۲ گذر به جلو : در گذر یه جلوء داده های آموزشی از طریق مدل منتشر می شود و خروجی های پیش بینی شده محاسبه می شود. سپس تلبع زیان با
استفاده از خروجی های پیش بینی شده و مقادیر واقعی داده های آموزشی محاسبه می شود.
صفحه 12:
۶ ادامه..؟
كذربه عقب :كذربه عقب كه به عنوان 886160088931010 نيز شناخته مى شود. شامل محاسبه كراديان تلبع زيان با توجه به بارامترهاى مدل است.
اين كراديان ها جهت و بزركى تغييرات مورد نياز براى به حداقل رساندن تابع زيان را نشان مى دهد.
؟.به روز رسانى بارامترهاء از كراديان ها براى به روز رسانى بارامترهاى مدل استفاده مى شود. بارامترها با در نظر كرقتن نرخ يادكيرى. در جهت مخالف كراديان
ها تنظیم می شوند. که اندازه گام به روز رسانی ها را تعیین می کند. نرخ یادگیری کمتره بهروزرسانیهای محتاطانهتر را تضمین میکند. در حللی که نرخ
یادگیری بیشتر ممکن است منجر به فراجهش راهحل بهینه شود.
۵ مراحل ۲ ۴ را تکرار کنید: مراحل ۲ تا ۴ برای تعداد مشخصی از تکرارهایا ار همگرلیی برآورده شود تكرار مى شود تكرارها برای به روز
رسانى بارامترهاء به تدريج كاهش زيان و بهيود عملكرد مدل ادامه مى يابد.
les که یک
انواع مختلفی از گرادیان نزولی وجود دارد. مانند نزول گرادیان تصادقی (963]0). نزول گرادیان دسته ای کوچک. و نزول گرادیان دسته ایء که در تعداد نمونه
های مورد استفاده برای محاسبه گرادیان در هر تکرار متفاوت است. هدف این گونه ها ایجاد تعادل بین بازده محاسباتی و سرعت همگرایی است.
نزول كراديان يك جزء حيلتى در آموزش مدلهاى يادكيرى ماشين است. زيرا به مدلها اجازه مىدهد از داددها ياد يكيرند و مجموعه بهينه بارامترهليى را بيابند
كه تابع زيان را به حداقل مىرساند و منجر به يهيود عملكرد و بيش بينىهاى بهتر م شود.
صفحه 13:
۷. تفاوت بین نزول گرادیان تصادفی و نزول گرادیان دسته ای چیست؟
نزول گرادیان تصادفی (9310) و نزول گرادیان دسته ای دو نوع از الگوریتم نزول گرادیان هستند که در تعداد نمونه های آموزشی مورد استفاده برای
محاسبه كراديان در هر تكرار متفاوت هستند. تفاوت آنها به اين صورت
١ نزول كراديان دسته لى:
- نزول كراديان دسته لى. كراديان ها را یا استفاده از کل مجموعه داده آموزشی در هر تکرار محاسبه می کند.
- در هر تاره مدل تابع زيان را ارزيابى مى كند و كراديان هارا براى تمام نمونه هاى آموزشى محاسبه مى كند.
- كراديان ها در كل مجموعه داده ميانكين كرفته مى شوند تا جهت و اندازه به روز رسانى بارامترها مشخص شود.
- نزول كراديان دسته اى از نظر محاسباتى كيان است زيرا نياز به ارزيابى كل مجموعه داده براى هر به روز رسائی
ا این حال, تخمین دقیق تری از كراديان واقعى ارائه مى دهد و به طور كلى به حداقل مقدار عمومى تابع زيان همكرا مى شود به ويؤه براى مسائل محدب.
- هنگام برخورد با مجموعه داده های بزرگ ممکن است به آرامی همگرا شود زیرا کل مجموعه داده باید در هر تکرار پردازش شود.
صفحه 14:
۷. ادامه...؟
۲ نزول گرادیان تصادفی:
يك تمونه أموزشى در هر بار و ذر هر تكرار به روز مى كند.
- نزول كراذيان تصاذفى بارامترهاى مدل را ب استفاده
مر هر نکر مدل يك نمونه أمورشي عسامطى رالتتغب م حتد. نايع زيان رامستاسيد عى اكتد و طوي ها رابر اناس إن تبونة واجد محاسيه مي کدد
- سپس از كراديان ها برلى به روز رسائى بارامترها بلافاصله يس از محاسبه استفاده مى شود و به روز رسانى ها را در مقايسه با كراديان دسته اى بيشتر و سريع ثر مى كند.
- از آنجايى كه فقط از يك نمونه استفاده می کند. نزول گرادیان تصادفی هزینه محاسبانی بسیار کمتری در هر تکراردارد.به خصوص برای مجموعه داده هاى بزرك.
يا لين حال به روز رساتی ها می تواننه نوبز داشته باشند و سمکن لست به طور دی جهت واقمی گرلیان رانشان ندهند. لین كار مى توند متجربه توسانات میشتر در طول
فرآیند بهینه سازی شود.
- نزول گرادیان تصادفی به دلیل واریانس بالای معرفی شده توسط به روز رسانی های نوبزدر.به احتمال زیاد به یک حداقل محلی به جای حداقل عمومی همگرا می شود.
- عليرغم مخدونيت همگرلیی محلی: نزول گرادیان تصادفی می تولند هنگام برخورد با مجموعه داده های بزرگ یا مسائل بهینه سازی غیر محدب سودمند باشد و گاهی اوقات
می تواند از حداقل های محلی ضعیف قرار کند.
همجنين. تعادلى بين اين ذو حللت افراطی وجود دارد که نزول گرادیان دسته ای کوچک نامیده می شود. در نزول گردیان دسته ای کوچک . یک زیرمجموعه کوچک (مینی
دستهای) از مونههای آموزشی به طور تصادفى انتخاب شده و براى محاسبه كراديان ها استفاده می شود. ان رویکر.تمدلیبینبازدهمحاسبانی و سرعت همگرایی اد
میکند و ممبولا در عمل استفاه میشود
صفحه 15:
۸ نقش توابع فعال سازی در یادگیری عمیق چیست؟
تولبع فعال سازى نقش مهمى در مدل هاى یادگیری عمیق دارند. لین تولبع رابعطه های غیرخطی را وارد شبکه عصبی میکنند وبه آن اجازهمیدهند تا
رولبط پیچیده بین دادههای ورودی و پیشبینیهای خروجی را بیاموزد و نمایش دهد. در اینجا نقش های کلیدی تولبع فعال سازی در یادگیری عمیق
آورده شده
ور
.١ غير خطى بودن: توابع فعال سازى تبديل های غیرخطی را به خروجی نورون ها انجام می دهند. بدون توابع فعالسازی غیرخطی. کل شبکه عصبی به
يك مدل خطی کاهش مییاید که قادر به یادگیری و فهمیدن الگوهای پیچیده در دادهها نیست. تولبع فعالسازی غیرخطی شبکه را قادر میسازد تا
روابط پیچیده و غیرخطی موجود در دادههای دنیایواقعی را مدلسازی کند.
۲ یادگیری ویژگی: مدل های یادگیری عمیق قادر به یادگیری خودکار نمایش سلسله مراتبی داده ها در سطوح چندگانه انتزاعی هستند. توابع فعال
اسارى re ce ee a eee
غیرخطی را ثبت کنند و شبکه را قادر میسازد تا نمایشهای مرتبط و آموزنده را از دادههای ورودی استخراج کند.
۲ جریان گرادیان و پایداری آموزش «توبع فعال سازی تأثیر مستقیمی بر جریا كراديان ها در طول الگوریتم پس انتشاردارند كه براى به روز رسانی
وزن ها و باياس ها استفاده می شود:
شبكه عصبى در طول آموزش يك تابع فعال سازى كه به خوبى انتخاب شده است. انتشار ملایم گرادیان ها را تضمین می کند و از مشکل محو یا انفجار
كراديان ها جلوكيرى مى كند. تولبع فعالسازی که محدوده متعادلی از مقادیر خروجی را حفظ میکنند به تثبیت فرآیند آموزش و تسریع همگرایی
كمف مى كنيد
صفحه 16:
۸ ادامه...؟
۴ محدوده خروجی و تفسیرپذیری:تابع فالسازی میتونند محدوده خروجی نورونها را تبین کنند و آنها را مناسب انجام كارهاى خاصى كنند. به عنوان مثال, تلبع سيكمويد
روج رابين oly as engi ١ 5١ رای کرهای طقه یی پابتری که هر لن غروجى اعدمالات را تشان مى دهد مد لت ار سوق درك ليع 960601874 Gir A
هر لايه خروجی برای مساال طبقه بندی چند کلاسه افمال کرد و توزيع احتمال را درگلاس های مختلف تولید کرد ویم فمالساری همچنین با له خروجیلبی که با PSU
بين هاى مدل تأثير مى كذارند.
Stel yt Sole
شكارايى محاسياتى: توابع فعال سازى بايد از نظر محاسباتیکارآمد و به راختی قبل تمایز باشند.اجرای کارآمدتوبعفعالسازی میتلد الگوریتمهای گذر به جلو و پس انتشر را
سرعت بخشد و آموزش و استتتا را کارآمدتر کند
توابع فعال سازی رایج در یادگیری عمبق عبارتن از
- 5190010 ورودی را به مقدارى بين ٠ و ١ نگاشت می کند که بای کارهای طبقه پندی پایری مناسپ است.
- 191011 مشبهتبع 51970014 است اما ورودى را به مقدری بین -۱ و ۱ نگاشت می کند.
sol) RELU — اصلاحشده» مقاخير منفى را صفر مىكند و مقادير مثبت را بدون تفيير نكه مىدارد. قابليتحلى يادكيرى بهتری را رنه میکند و مشکل محو گرادیان را کاهش
میدهد.
-لااع8 1۵2107 مشابه لاع8 است. ما شیب کوچکی را رای مقادیرمنفی معرقی می کند و از ورون های "مرده" جلوگیری می کند
- 08117133 در لايه خروجى براى طبقه يندى جند كلاسه استفاده مى شود و توزيع اختمال ير روى كلاس ها را توليد مى كند.
انتخاب تلبع فعال سازى به ماهيت کارهویژگی های مورد نظر مدل و ویزگی های داده ها بستكى دارد انتخاب و درك ضحيح توليع فعال سازی برای طراحی مدل های یادگیری عمیق
موثر و با ارایی بالا ضروری است.
صفحه 17:
٩ برخی از توابع فعال سازی رایج در یادگیری عمیق را نام ببرید.
.٠ تابع فعال سازى سيكمويد:
a(x) = 1/ (1 + exp(-x)) Jee -
- محدوده خروجی:(0 41
- -مناسب برای؛ مسائل طبقه بندی باینری که در آن خروجی احتمالات را نشان می دهد.
تابع فعال سازى 131019 (مماس هايبربوليك»
tanh(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x)) فرمول: -
- محدوده خروجی: (۱, 0
- - مشابه تابع سيكمويد اما با محدوده خروجى متقارن حول صفر.
۳ تابع فعال سازی واحد خطی اصلاح ARELU) oa
ReLU(x) = max(0, x) فرمول: -
- محدوده خروجی: [,+00)
- - به دلیل سادگی و توتیی آن برای کاهشن مشکل محو گرادیان. به طور گسترده استفاده مى شود مقادير منفى را صفر می کند و مقادیر مثبت را بدون تفیبر نگه می دارد.
صفحه 18:
٩ ادامه..؟
Leaky ReLU gil. Jui a
cub 5, 045) LeakyReLU(x) = max(ax, x) .Jse,3 کر
- -محدوده خروجی: (0, :ه)
- - شبیه 896 است اما شیب کوچکی را رای مقادیرمنقی معرفی می کند. که از نورون های "مرده" جلوگیری می کند
ل تابع فعال سازی پارمتریک ReLU :(PRELU)
- فرمول ( ,۳۵3/006 < ()۳8610 :که 0 یک پارامتر قابل یادگیری است
- محدوده خروجی:(-, «ه))
- - توسعه یفته لا86 163107 که در آن 0 را می توان در طول آموزش یاد گرفت.
۶ تیم فال سازی Softmax
- فرمول:ز Gly Softmax(x_i) = exp(x_i) / sum(exp(x_j)) 2 عنصر آ لا در بردار ورودی 06
= محدوده خروجی: (۱,۰)برای هر عنصر با مجموع همه عناص VU ply
- معمولاً رای خروچی بای مسائل طيقه يعدى جند كلاسه براي توقيد توزيع أحتمال در كلاس على مختلف استفاده مي شود
صفحه 19:
٩ ادامه..؟
اتايع قمال سازى مر
- فرمول: (2><-)م)اء > ()55130لاة6©
- محدوده خروجى:(0, 1)
- در موارد خاص مانند مکانیزم های توجه شبکه های عصبی استفاده می شود.
۸ عملکرد فعال سازی 5/0 5۷۷:
- فرمول: ()519۲0010 * ۷ < ()5ز5۷
- محدوده خروجی:(-0, +0)
- به عنوان یک تابع فعال سازی خود-دروازه ای معرفی شده است که به طور بالقوه می تواند عملکرد بهتری را در مقایسه با انواع 8611 ارائه دهد.
ینها نها چند نمونه از توابع فعال سازی رایج در یادگیری عمیق هستند.انتخاب تبع فعال سازی به مساله خاص, ویژگی های داده ها و ویژگی های
مورد نظر مدل بستگی دارد. آزمایش و انتخاب تابع فعال سازی مناسب بر اساس الزامات کار مهم است.
صفحه 20:
۰ مشکل محو گرادیان چیست؟
مشکل محو گرادیانبه مشکلی اشاره درد که در طول آموزش شبکههای عصبی عمیق با آن مواجه مىشويم. جابى كه كراديانهاى تلبع زيان با توجه به بارامترها بسيار
کمچک میشوند زرا در لابههای شبکه به عنب متتر میشوند. این موضوع می تاند روند یادگیری را مختل کند و بر عملکرد شبکه تأثیر ستفی بکتار.
مشکل اساسا بهدلیل انتخاب تولیع فعالسازی,مانند مماس سیگموئید یا هذلولی (LAMM) که مقادیر ورودی را در یک محدوده معین, معمولاً بين ٠ و ۱یا -۱ و ۱ قرار
می دهد ایجاد میشود هنگامی که گرادبان ها در حین پس انتشار معاسبه می شونده در مشتقات لین تولبعفعال سازی شرب می شرند. که تملیل دارند در تواحی شدید.
(نزديك به ٠ يا )١ كوجك باشند. در نتیجه. گراد
أن ها مى توانند به صورت تصاعدى كاهش بيدا كنند. زيرا در لايه هاى زيادى به سمت عقب منتشر می شوند.
همانطور كه كراديان ها به طور محو شدنى كوجك مى شوند. وزن ها و باياس هاى لابه هاى قبلى ببه روز رسانى حداقلى را در طول آموزش دريافت مى كدئد. لين بدان
ممداست كه لايد على اولي شبكه بأ سرمت يسيار كمتري نسيت به لايه على يمدي ياد مى كيرند در تتيج شيكه pei با ری تسایس هی مسر تاش
کندو تون اگوها و وبط Ses la pol) le
مشکل محو گرادیان میتولند منجر به چالشهای متعددی شود. از جمله همگرلیی آهسته. ظرفیت مدل محدود: و مشکلات در آموزش شبکههای عصبی عمیق با لایههای
زياد. در شبكدهابى با اتصالات مكرر. مانند شبكههاى عصبى بازگشتی ((3۱1). كه در آن كراديانها بايد در دنبالههاى طولانی منتشر شوند. شیوع بیشتری درد
برای پرداختن به مشکل محو كراذيان : تولبع فعالسازى مختلفي ماتند واحد خطى اصلاحشده (لأ-/8) و اتواع آن ايجاد las كه با ارلئه كراذيانهاى غير ضفر براك
ورودیهای مثبت. مشكل را كاهش م دهند علاوه بر لین» تکنیک هایی مانند برش گرادیان:نرمال سازی دسته ای. و اتصالات پرش لبه عنون مثال, اتصالات بقیمانده)
بای تثبیت گرادیان ها و کمک به آموزش شبکه های عمیق تر معرفی شده ند
با استفاه از تویعفعالسازی مناسب و بهکارگیری تکنیکهای منظمسازی, میتوان مشکل محو گرادیان را کاهش داد و آموزش شبکههای عصبی عمیقتر را تسهیل کرد و
آنها را قادر میسازد تا نمایشهای پیچیدهتری را بيموزند و به عملکرد بهتر در طيف كستردهاى از وظايف دست يابئد.
صفحه 21:
۱. چگونه می توان مشکل محو گرادیان را کاهش داد؟
مشکل مجو گرادیان را مى توان از طريق تکنیک های مختلفی که به تتبیت و تسهیل آموزش شبکه های عصبی عمیق کمک می کند. کاهش داد در
اینجا برخی از رویکردهای رایج استفاده می شود:
۱. توابع فعالسازی: به جای استفاده از توابع فعالسازی که مقادیر ورودی را اشباع و خرد میکنند. مانتد سیگموید یا 520010 استفاده از توابع
فعالسازی که برای ورودیهای مثبت از محو گرادیان رنج نمیبرند. اغلب سودمند است. واحد خطی اصلاح شده (لا6) و انواع آن لبه عنوان مثال.
86۱۱۱ ۱6810766۱۱۱۰ پارامتریک) انتخاب های محبیبی هستند زیرا گرادیان های غیر صفر را برای مقادیر مثبت فراهم می کنند و یادگیری سریع
ترو بابدارتر رأ ترويع مى أكتند.
۲ مقداردهی اولیه: مقداردهی اولیه دقیق وزن های شبکه می تولند به كاهش مشكل محو كراديان كمك كند. مقداردهى اوليه وزن هابا استراتزىهاى
مناسب. مانند استفاده از تکنیکهایی مانند مقداردهی اولیه 263۷16۳ یا مقداردهی اولیه ۰16 میتواند از محو یا انفجار گرادیان در طول آموزش
جلوگیری کند. هدف این روشهای مقداردهی اولیه حفظ محدوده معقولی از فعالسازیها و گرادیانها در سراسر شبکه است.
+ برش گرادیان: 21[001۳9) 3۲301610۴) تکنیکی است که برای محدود کردن بزرگی گرادیان ها در طول آموزش استفاده می شود..با تعیین یک
آستان. گرادیان ها در صورت تجاوز از اين حد. مجدداً مقياس مى شوند. برش كراديان از مقادیر گرادیان شدید که میتونند باعث بیثبانی در طول
آموزش شوند. بهویژه در شبکههای عصبی بازگشتی )۲٩۱۷|۷/( جلوگیری میکند.
صفحه 22:
۱. ادامه..؟
؟: نمال سازی دسته ای:نرمال سازی دسته ای تکنیکی است که فعال سازی هر لاه ربا تنظیم و مقياس بندى آنها با توجه به ميانكين و واريانس دسته. نرمال مى
كند. لين ترمال سازى به كاهش مشكل محو كراديان با کاهش لثر شیفت توزیع داخلی و رنه یک فرآیند آموزشی پایدارتر کمک می کند. رمال سازی دسته ای نیزبه
عنوان یک تنظیم کننده عمل می کند و می تواند همگرایی را سرعت بخشد.
۵ اتصالات پرش و شبکه های باقیماند؛اتصالات پرش. که به عنوان اتصالات بقیمانده نیز شناخته می شوند. شامل افزودن اتصالات میانبر است که یک یا چند لایه در
شبکه را دور می زند. این اتصالات گرادیان ها را قادر می سازند تا مستقیماً از طریق اتصالات پرش جریان پیدا کنند و امکان انتشار آسان گرادیان ها در لایه ها را فراهم
مى کنند. شبکههای باقیمانده(5ت )٩6511 از اتصالات پرش برای ایجاد شبکههای عمیق و رفع مشکل محو گرادیان استفاده میکنند.
۶ حافظه کوتاه مدت طولانی(718 )و واحدهای بازگشتی دروازه در ([3/81): در شبکه های عصبی بازگشتی (۸/89)» مجو گرادیان هابه دلیل نیز به نت
گرادیان ها در دنله های طولانی می تواتند مشکل ساز باشند.معماریهای 15714 و aS GRU شامل سلولهای حافظه و مکانیمهای دروازه ای میشوند.به طور
خاص برای کاهش مشکل محو گردیان در 1٩۱1۱ طراحی شدداتد. لين معمارى هابه طور موثر وابستكى هاى طولاتى مدت را در داده های متوللیدریافت می کنند و
جريان كراديان بايدارترى را امكان يذير مى كنند.
1 الكوريتمهاى بهينهسازى مبتدى بر كراديان: استفاده از الكوريتمهاى بهينهسازى كه كمتر مستعد مشكل محو كراديان هستند نيز مىتواند مفيد باشد. روشهلى
بهینهسازی تطبیقی, ماتند ۸۹63۲01 یا ٩۷150700 بهطور پویا تخهای یادگیری را برای هر پارامتر بر اساس كراديانهاى كذشته تنظيم مىكنند. اين الكوريتمها
میتوانند با تطبیق نرخهای یادگیری با گرادیانهای خاصی که در طول آموزش با آن مواجه میشوند. به حل مشکل محو گرادیانها کمک کنند.
جا استفافه ازلين تكنيك هاليه صورت تركيبى ما sce ey Jo ees pe وان مشکل مسو sere eee in eg Ae Gee GIS راب
طور موثرترى أموزش ناد با لين حال توجه به لين تكته مهم لست كه استراتزىهاي مختلق ممكن است براى سداريوهاى مختلف بهتر عمل كنبد واشلب براى تعيين
رويكرد بهينه نياز به تجربه است.
صفحه 23:
۲. حذف تصادفی در یادگیری عمیق چیست؟
حذف تصادفی یک تکنیک منظم سازی است که معمولاً در یادگیری عمیق استفاده می شود و هدف آن جلوگیری از بیش برازش و بهبود عملکرد
تعمیم شبکه های عصبی است. لین تکنیک شامل «حذف کردن» موقت (یعنی صفر کردن) مجموعه تصادفی نورون ها در طول هر تکرار آموزشی است.
نورون های حذف شده در طی آن تکرار یه گذر به جلو یا گذر به عقب مشارکت نمی کنند.
نحوه عملکرد حذف تصادفی در اینجا آمده است:
۱. در طول آموزش:
- در هر تکرارآموزشی به ازای هر نورون در یک لایه. حذف تصادفی به طور تصادفی فعال شدن آن نورون ربا احتمال خاصی (میزان حذف تصادفی )
صفر می کند. نرخ حذف تصادفی معمولاً از ۰.۲ تا ۰۵ متغیر است.
- حذف تصادفی به طور مستقل برای هر نورون اعمال می شود. به این معنی که نورون های مختلف می توانند در تکرارهای مختلف حذف شوند.
و eee ۱
دیگر باید نورونهای حذفشده را جیران کنند.
- گذر به عقب (پس انتشار) فقط نورون های حذف نشده را در نظر می گیرد و گرادیان ها فقط از طریق آن نورون های فعال .منتشر مى شوند.
صفحه 24:
VY دامه..؟
Jub at استتتاج.
- در مرحله استنباط ی آزمایش: حنف تصادفی خاموش مي شود و همه نورون ها فعال هستند.
-با ین حال.برای حفظ فعالسازىهاى مورد انتظار. وزن نورونهابى که در طول آزملیش حذف شدهاند. در نرخ حذف تصادفى در طول استنتاج ضرب مىشوند. لين كار تضمین
مى كند كه ورودى كلى هر نورون مشابه مرحله آموزش باقى مى ماد
ا مقياس بندى وزن ها در طول استنلم. شبکه به لور موتری پیش بیتی های شبکه های کوچک شده چندگاته را ترکیب می کند ودر نتیجه یک مدل قوی قر و تعمیم بافت.
ایجاد می کند.
مزایای اصلی حذف تصادفی عبارتند از
۱ منم سازی: حذف تصادفى به عنوان يك تكنيك منظم سازى با معرفى تويز و كاهش سازكارى هلى بيجيده بين نورون ها عمل مى كند. لين كارجه جلوكيرى از بيش برازش
ules ee ee مدل را براى تعميم به Bey ogy meer aan
۲ کاهش وابستگیهای متقابل: حذف تصادفی نورونه از تكيه بيش از حد به يكديكر جلوكيرى مىكند و أنها را مجبور مىكند مستقلتر باشند و ویژگیهای قویتری را بياموزند.
ناثير جممى: حذف تصادفى را مى توان به عنوان آموزش جندين شبكه "كوجك شده" به صورت موازى در طول هر تكرار مشاهده كرد. در زمان
موثر تركيب مى شوند و منجر به مجموعه اى از مدل ها مى شود كه مى توانند يبش بينى هاى قابل اطمينان ثرى انجام دهند.
نشان دادم شده است که حنف تصادفی در انواع معمارى شبكه هلى عصبى موثر النت وبه يك تكنيك استشدارد در يلدكيرى عمیق تبدیل شده است. لین تکنیک یک رلهساده و
در مین حال قرتمند برای بهبودعملکرد تمیم و استحکام شبکه های عصبی که می دهد
صفحه 25:
۳ مفهوم شبکه های عصبی کانولوشن <1(()) را توضیح دهید.
شبکههای عصبی کانولوشنال (۷/۷//)) دستهای از شبکههای عصبی عمیق هستند که به طور خاص برای پردازش دادههای شبکهمانند ساختار یافته.
مانند تصاویر یا دنبالها طراحی شدهاند.///2) ها انقلابی در زمینه بینلیی کامپیوتر ایجاد کرده لند و به طور گسترده برای کارهایی مانند طبقه بندی
'تصوير. تشخيص اشيا و قطعه بندى تصوير مورد استفاده قرار كرفته اند. مفهوم كليدى يشت 77 الا1ن) استفاده از لایههای کانولوشنی است که شبکه را
قادر میسازد تا به طور خودکار نمایش سلسله مراتبی دادههای ورودی را بیاموزد.
تایبا سود كار 1010 ها آنده است:
.١ لايه هاى كانولوشتال:
- لاله از یک یا چند لایه کاولوشن تشکیل شده اند. هر لايه كانولوشن مجموعه اى از فيلترهاى قابل يادكيرى (همجنين به عنوان هسته
شناخته می شود) روی داده هاى ورودى اعمال مى كند.
ها ماتریس هلیی با اندازه کوچک هستند که روی داده های ورودی می لفزند و عملیات ضرب و جمع درلیه ای انجام می دهند که منجر به یک
هی بلح
- عملیات كانولوشنال الكوهاى محلى و وابستكىهاى فضابى را با بهردبردارى از وزنهاى مشترك فيلترها ثبت مىكند.
- آندازه. گام و لایه فیلترهاء ابعاد فضایی نقشه هاى مشخصه حاصل را تعيين مى كند.
صفحه 26:
۳ ادامه....
۲ لایه های ادغام:
- لایههای ادغام اغلب بعد از لایههای کانولوشن درچ میشوند تا ایعاد فضایی نقشههای ویژگی را کاهش دهند و در عین حال مرتبطترین اطلاعات را
حفظ کنند.
- عملیات ادغام. نقشه های ویژگی را به مناطق غیر همپوشانی تقسیم می کند و آنها را معمولاً با گرفتن حداکتر مقدار (ادغام بیشینه) یا مقدار متوسط
ee
- ادغام به دستيابى به باياى انتفال استحکام نسبت به تغییرات فضایی کوچک و کاهش پیچیدگی محاسباتی شبکه کمک می کند.
":توابع فعال سازى غير خطى؛
- بعد از هر لايه كانولوشن يا ادغام. يك تلبع فعال سازى غير خطى. مانند RELU (واحد خطی اصلاح شده» معمولً به صورت ضرب درلیه ای به نقشه
های ویژگی اعمال می شود.
- تلبع فعالسازى. غیرخطیها را به شبکه معرفی میکند ون را قدر میسازد تا وبط پیچیده را ید بگیرد و ویژگیهای سططح بل را در دادهها درک
کند.
صفحه 27:
۳ ادامه....
۴ لايه هاى تمام متصل:
در انتهاى معمارى 0180© معمولاً يك يا جند لايه تمام متضل اضافه مى شود.
لین لایه هابه عنوان یک طبقه بندی کننده عمل می کنند و ویژگی های سطح بالایی را که توسط لایه های قبلی آموخته اند را مى كيرند و آنها رابه خروجی مور
تظر نگاشت می کنند. مانند احتمالات کلاس در مورد طبقه بندی تصوير.
لیههای تمام متصل هر نورون را در یک لايه به هر نورون در لايه بعدى متصل مىكنند. مشابه برسبترونهاى جند لایه سنتی (1-8/)
۵آموزش:
CNN ها با استفاده از پس انتشار آموزش داده می شوند. جلیی که گرادیان های تبع زیان با توجه بهپرامترهای شبکه محاسیه شده و برای به روز رسائی وزن ها از
طريق الكوريتم هاى يهينه سازى مانند نزول كراديان تصادفى (560) استفاده می شود
آموزش معمولً روی مجموعه دادههای برچسبگاریشده بزرگ انجام میشود و شبکه یاد میگیرد که به طور خودکار ویژگیهای معنیدار و متمایز از دادههای
ورودی را از طریق قرار گرفتن مکرر در معرض نمونهای آموزشی استخراج کند
قابليت يادكيرى سلسله مراتبى و محلی 1010© ها آنها را به ویقه بای کارهای مرتبط با تصویر موثر می کند. با استفاده از لاههای کانلوشن, لایههای ادغام و توبع
فعالسازی غیرخعطی, لها میتواتند به طور خودكار ويزكىها را در سطوح مختلف انتزاع, از لبدها و بافتهاى ساده گرفته تا نمايشهاى بيجيده اشياء. ياد بكيرند
و ثبت كتند لين كار 0004 ها را قادر مى سازد تابه عملکرد پیشرفته ای در وظلیف مختلف بینایی کامپیوتر دست یابند و آنها را در زمینهیادگیری عمیق ضروری
صفحه 28:
۴ مفهوم ادغام در ل۷8) ها چیست؟
ادغام یک عملیات رایچ در شبکه های عصبی کانولوشن ([(21۷)) است که معمولاً بعد از لایه های کانولوشن اعمال می شود. لایه های ادغام ابعاد
فضایی (عرض و ارتفاع) نقشه های ویژگی را کاهش می دهند و در عین حال مرتبط ترین اطلاعات را حفظ می کنند. هدف اصلی از ادغام دستیابی به
عدم تغییر ترجمه. افزایش کارایی محاسباتی و کمک به تمرکز شبکه بر برجسته ترین ویژگی ها است.
در اینجا نحوه عملکرد ادغام آمده است:
ادغام بیشینه:
- ادغام بيشینه رايج ترین نوع عملیات ادغام است که در CNN ها استفاده می شود.
- در ادغام بيشينه. نقشه ویژگی به مناطق غیر همپوشانی (معمولاًمربعی) تقسیم می شود که به آن پنجره های ادغام می گویند
- در هر پنجره ادغام. حداکثر مقدار (با توجه به نام " ادغام بیشینه ") استخراج و حفظ می شود و مقادیر دیگر کنار گذاشته می شود.
- نقشه ویژگی خروجی حاصل, ابعاد فضایی را کاهش داده است. زیرا تعداد پنجره های ادغام کوچکتر از اندازه ورودی اصلی است.
-ادغام بيشینه به درک برجسته ترین ویژگی ها در هر ناحیه کمک می کند و درجلتى از باياى انتفال را فراهم مى كند. زيرا حداكثر مقدار نشان دهتده
وجود یک ویژگی بدون توجه به مکان قیق آن است.
صفحه 29:
۴ ادامه
۲ ادغام مانگین
- نوع ديكرى از عمليات ادغام. ادغام ميائكين است.
- مشابه ادقام بيشينه. نقشه ويزكى به ينجره هاى ادغام تفسيم مى شود.
- ادغام ميانكين به جاى انتخاب حدا
مقداره مقدار متوسط را در هر پنجره ادغام محاسبه می کند و آن را حفظ می کند.
-ادفام میانگین زمانی می تواند مفید باشد که مکان دقیق ویژگی ها اهمبت کمتری داشته باشد و نمایش کلی تری مورد نظر باشد,
هر دو ادغام حداکثر و ادغام میانگین عملیات قطمی هستند و شامل
عنوان نوعی کاهش ابعاد عمل می کنند.
ارامترهای قلبل بادگیری نیستند.آنها با جمع آوری اطلاعات از مناطق همسایه و حفظ مهم ترین اطلاعات به
مزاياى ادغام در 1010© ها عبارتند /
۱ كاهش ابغاد: ادقام ابناد فضابى نقشة هاى ويزكى را كافش مى دهد و در نتيجه تعداد بارامترها و بيجيدكى محاسباتى كمترى در لابه هائ بعدى ايجاد مى شود ين امبر
نيازهاى حافظه را كاهش مى دهد و آموزش و استنتاج رأ تسريع مى كند.
؟. باياى انتفال: ادغام به دستيابى به درجه اى از باياى انتفال كمك مى كند و شبكه را قادر مى سازد ما ويذكى ها را بدون توجه به مكان دقيق آنها در ورودی تشخیص دهد. این
كار به ويزه در كارهايى كه موقميت مكانى ويزكى ها كمتر مرتبط اسست. مانند تشخیص اشيا مفيد ا.
۲ استحکام نسبت به تغیبرات: ادغام درجه ای از استحکام را بای تفیبرات کوچک يا اعوجاج در دادة هاى ورودى قراهم مى كند. با تجميع اطلاعات از تواحى مخلى. ادغام مى تواند
ابه مركو شباكه بر ووى برجستة ثرين و تلبت ائرين ويؤكى ها أكماق كلد
صفحه 30:
۴ ادامه
با اين حال. توجه به اين نكته مهم است كه ادغام مى تولند منجر به از دست دادن اطلاعات مکلنی شود. نمونه برداری پایین ارائه شده توسط ادغام.
وضوح نقشه های ویژگی را کاهش می دهد و به طور بالقوه جزئیات ریز را از دست می دهد. در پرخی موارده این از دست دادن اطلاعات ممکن است
نامطلوب باشد. به ویژه در کارهایی که مکان یابی مکانی دقیق بسیار مهم است. مانند تشخیص شی يا قطعه بندی معنایی:
به طور کلی. ادغام یک عملیات ارزشمند در cot la CNN که نقش کلیدی در کاهش ابعاد افزلیش کارلیی محاسباتی. و گرفتن ویژگی های مهم در
حین دستیایی به عدم تغییر ترجمه ایفا می کند. انتخاب اندازه. گام و نوع ادغام (ادغام بيشینه. ادغام میانگین و غیره) یه مشکل خاص و ویژگی های
مورد نظر شبکه پستگی درد
صفحه 31:
10 مزایای استفاده از 8( در وظایف تشخیص تصویر چیست؟
شبکههای عصبی کانولوشتال (/11( دارای چندین مزیت هستند که نها را بای کارهای تشخیص تصویر بسیار مزثر میسازد. در ینجا برخی از مزايلى كليبي
ذکر شده است:
.d یادگیری ویزگی سلسله مراتیی: !6 ها برای یادگیری خودکار تمایش سلسله مراتیی داده های ورودی طراحی شده اند. از طریق چندیین لابه عملیات
کانولوشن و دغام. uo Lo CNN توانتد ویژگی های پیچیده و اتزاعی فزینده ای را از مقادیر پیکسل خام دریافت کنند. این یادگیری ویژگی سلسله مراتبى به
ل ها اجازه مى دهد تا لبه هاء بافت هاء اشكال و نمایش اشیاء سطح بالاتر را در یک تصویر تشخیص دهند.
میدان های دریاقتی محلی: !۲ ها از مفهوم ميدان هاى دريافتى محلى بهره بردارى مى كنند. به اين معنى كه هر نورون در یک لایه کنلوشن, به جای کل
ورودی فشط به یک ناحیه محی از ورودی متصل نتم لين اتصال مجلى بد شبکه اجره میدهد تابر روی مرت وبستگیهای فشلبی و الگوهای محلی درون تصوير
تمرکز کند و لالا|نها را برای کارهایی که روابط مکائی مهم هستند. مانند تشخیص اشیاء مناسب میساز
۳ بايا انتفال: 1010© ها درجه لى از باياى انتفال را نشان مى دهند. به اين معنى که می توننداشیا یا گوها را بدون توجه به موقمیت دقیق آنها در تصویر ورودی
تشخیص دهند. لین ویژگی از طریق استفده از ایه های ادغام. که اطلاعات تاحیه های محلی را جمع آوری می کند و برجسته ترین ویژگی ها را حفظ می کند. به
زيرا لين امكان را براى تغييرات فضليى كوجك. مانند موقعيت يا جهت كيرى شى. فراهم
دست می آید باياى أنتفال در كارهاى تشخيص تصوير بسيار مطلوب 1
إلى كنف
صفحه 32:
VO ادامه..؟
۴.به اشتراک گذاری پارامتر: 6۱1/1 ها از اشتراک گذاری پاامترها استفاده می کنند. كه به استفاده از مجموعه اى از وزن ها (فيلترها) در مکان های فضایی مختلف
ورودی اشارهدارد. این به اشتراک گذاری پارمترها به طورقابل توجهی تعناد پارمترهای قابل آموزش را در مقایسه با معماری های تمام متصل کاهش می دهد و
۲ هار از نظر محاسباتیکارآمدتر و آموزش را آسان تر می کند
۵ كافش حساسيت به تغييرات محلى: 1001© ها نسبت به تغييرات كوجك محلى يا اموجاع در داده هاى ورودى حساسيت کمتری دارند. 6118 ها ee Jus
ويزكى هاى سلسله مراتبى و عمليات ادغام. مى توانند بر روى درك ويزكى هاى معنليى سطح بالا تمركز كنند در حللى كه جزئيات يا تويز نامربوط را ناديده مى كيرئد.
لين استحكام نسبت به تغييرات محلى باعث میشود که لها در برابر تفییرات جزئی در شرلیط نوری. وضعیت جسم یا به هم ریختگی پسزمینه تحمل بیشتری
داشته بشند.
ع آموزش انتقالى: shige clo CNN دید بر روی مجموعه داده هاى تصويرى در مقياس بزرك. مانند :0061 ©1789 ويذكى هاى غنى و قابل تعميم را آموخته
اند. لين مدلهاى از بيش آموزشديده شده را مىتوان بدعتوان نقطه شروع براى كارهاى جديد تشخيص تصوير. حتى با دادمهاى برجسبكذارى شده محدوده استفاده
كرد. يادكيرى انتقللى با 61 ها اجازه می دهد تا ز داتش به دست آمده از يك كار يا مجموعه داده استفاده كنيد و لن را به دیگری اعمال كنيد. در زمان آموزش
صرفه جويى كنيد و عملكرد را بهبود بخشيد.
1 عملكرد بيشرفته: 1014© ها به طور مداوم در معیازهای مختلف تخخیص تصویر از جمله طبقه بندی نصویر تشخیس اشیا و وطلیف قطعه بندی تصويره يه عملكر:
بيشرفته اى دست ياقته اند. آنها از روشهای یادگیری ماشینی سنتی پیشی گرفهند و به رویکردی برای بسیاری از مشکلات بیناییکامپیوترتبدیل شداند.
ین مزیا ).ها رابهستون فقرات سیستم های تشخیص تصویرمدرن تبدیل کرده است. توائليى أنها در يادكيرى خودكار ويزكىهاى سلسله مراتيى. بهرمبردارى
از روابط فضایی محلی, و نشان دادن پایای انتفال, لها را قادر میسازد تا در استخراج اطلاعات معنیدار از تصاویر و طبقهبندی یا تشخیص دقیق اشیاء درون آنها
برتری داشته باشند.
صفحه 33:
IF مفهوم شبکه های عصبی باز گشتی <۸01) چیست؟
شبکه های عصبی بازگشتی ((۱۷*]) نوعی شبکه عصبی هستند که به طور خاص برای مدیریت داده های متوللی مانند سری های زمانی. متن. گفتار یا
هر داده ای با وابستگی زمانی طراحی شده اند. برخلاف شبکههای عصبی پیشخور. که دادههای ورودی را در یک گذر پردازش میکنند. ل۱۷۱*آها
دارای اتصالات بازخوردی هستند که به اطلاعات اجازه میدهد در مراحل مختلف زمانی بافی بمانند و به اشتراک گذاشته شوند. اين کار ٩۱1! ها را
قادر می سازد تا وایستگی های زمانی را در داده ها مدل سازی و درک کنند.
مفهوم کلیدی ٩۱۷! ها اتصال بازگشتی است که به شبکه اجازه می دهد یک حللت یا حافظه داخلی را حفظ کند که می تولند به روز شده و تحت
تأثیر ورودی فعلی و همچنین حالت قبلی باشد. این حافظه. RN ها را قادر می سازد تا داده های متوالی را با گنجاندن اطلاعات مراحل زمانی
گذشته و در عین حال در نظر گرفتن ورودی فعلی پردازش کنند
در اینجا تحوه عملکرد ۸۷ ها آمده است:
صفحه 34:
۶. ادامه..؟
ا.اتصالات از"
- در یک !۰۸۷ هر نورون دارای یک اتصال بازگشتی است که خروجی خود را به عنوان ورودى براى مرحله زمانى بعدى تغذيه مى كند.
اين حلقه بازخورد به شبكه اجازه مى دهد تاحافظه يا حالت ينهانى را حفظ كند كه خلاصه اى از اطلاغات ديده شده تا کنون است.
- حالت ينهان .محتوا يا تمايش ورودى هاى كذشته را مى كيرد و بر بردازش ورودى فعلى تأثير مى كذارد.
۴زمان بازگشایی:
- رای ISIN cen sailed صورت بر شده در طول ردان به تم ویر کشیده می شون
+ هر مرحله بارگشایی پردازش [181۱ را مر یک مرحلهزماتی خاص تشان می دهد که ورودى ها وخروجى ها به صورت امتوالى جريان دارقد.
۲ آموزش و پس انتشار
- ۸/۱1 هابا استفاده از يس انتشار در طول زمان (8811). توسعه دهنده الكوريتم يس انتشار استاندارد . آموزش ذاده مى شوند.
- 8۳۲۲ شامل بازشدن 0080 هر طول زمان. هر نظر تكرفتن آن به عنوان يك شبك عصبى بيشخور عميق و استفاده از الكوريتم يس انتخا ستانارد است.
- كراديان ها در طول زمان منتشر مى شوند وبه شبكه اجازه مى دهند وزن هليى را كه بر وضعيت ينهان و بيش بينى هاى خروجى تأثير مى كذارند ياد بكيرد وه روز
=
صفحه 35:
۶. ادامه..؟
۴ حافظه کوتاه (LSTM) gy gb cu 9 واحدهای بازگشتی 031550 (GRU) jo
- ۹0۷8 های سنتی از مشعل مجو كراديان رنج می برند. که تانیی آنها را برای گرفتن وابستگی های ملولاتی مدت در داده ها مسدود می کند.
- برای پرداختن به این موضوع. معماری های پیشرفته ۱۷8۷ مانند حافظه کوتاه مدت طولانسی(/۷آ کا) و واحدهای بازگشتی دروازه
دار( 313))معرفی شده اند
- شبکه های 5۷ و (3) شامل مکانیزم های اضافی به نام دروازه ها هستند که به طور انتخلبی جریان اطلاعات را کنترل می کنند و از مجو یا
انفجار گرادیان ها جلوگیری می کنند.
- این معماریهای دروازهای» LERNN cables را برای درک و یادگیری وابستگیهای بلندمدت بهبود بخشیدهاند. و آنها را در کارهایی که به اطلاعات
زمیهای دوربرد نياز دارند. موثرتر كرددائد.
|۱۷ هبه طور كستردم در كاربردهاىمختلفاز جمله بردازشزبانطبيعى تشخيصكفتر. تسرجمه ماشينى تحليإحساساتو پسیش_ینی
سرىهاوزمانىإستفاده مىشوند تولنايولرها در مد ازودادههایمتواسلیو درکولبستگیاوزمانیآنها را برلوكارهايوكه يمينه و تسرتيبهادمها
بسير مهملسستمناسيممازد. بالمينحللشايانذكر لسمتكه 1010 هائيستاندارد به دليلمشكلمحو كراديازمىت ولنند با منبلله ها سير
طولائیمستو يسنجه رم کسنند در چنینهواردیمعمییهای/ 57| با (ا 3 لغلمتسرچیج داده میشوند
صفحه 36:
۷. مفهوم شبکه های حافظه کوتاه مدت طولانی(/۲1 5.) را توضیح دهید.
شبکههای حافظه کوتاهمدت طولاتی (71۷1 15) نوعی معماری شبکههای عصبی باز گشتی )6٩۱۷!( هستند که برای غلبه بر محدودیتهای GORNN
سنتی در درک وابستگیهای بلندمدت در دادههای متوللی طراحی شدهاند. شبکههای LSTM برای رسیدگی به مشکل محو گرادیان معرفی شدند. که
توانایی ]ها را برای انتشار و یادگیری اطلاعات در دنبالههای طولانی مختل میکند.
مفهوم کلیدی پشت شبکههای ۲1۷ 5 معرفی سلولهای حافظه تخصصی است که به شبکه اجازه میدهد به طور انتخابی اطلاعات را در مراحل
زمانی مختلف به خاطر بسپرد یا فراموش کند. لین سلول های حافظه توسط مکانیزم های دروازه ای کنترل می شوند که جریان اطلاعات را از طریق
شبكه تنظيم مى کنند.
در اينجا نحوه عملكرد شبكه هاى 11/1 5] آمده است:
.١ سلول هاى حافظه:
- شبكه هاى LSTM حاوی سلول های حافظه هستند که به عنوان بلوک های ساختمانی اساسی شبکه عمل می کنند.
- هر سلول حافظه یک حالت داخلی دارد که نشان دهنده اطلاعات انباشته شده یا حافظه شبکه است.
- وضعیت داخلی را مى توان بر اساس ورودى و زمينه فعلى به روز. اصلاح و به طور انتخابی فراموش کرد
صفحه 37:
۷ ادامه....
۲درواژه ها
- شبکه های 51| مکانیزم های دروازه ای را برای کنترل جریان اطلاعات در داخل شبکه و به روز رسانی انتخابی سلول های حافظه در خود جای
ی ده
- سه نوع اصلی دروازه در شبکه های 1577 وجود دارد:
آ. دروازه فراموشی: تعیین می کند که کدام اطلاعات از وضعیت داخلی قبلی فراموش شود.
اب دروازه ورودی: تعیین می کند که کدام اطلاعات جدید در وضعیت داخلی فعلی گنجانده شود.
ee oe ee See re فعلى نشان جاده شود
۳ توابع فعال سازی:
- شبکههای ۷ آ 15 از توابع فعالسازی برای کنترل مقادیر و تبدیلهای درون سلولها و دروازههای حافظه استفاده میکنند.
- متداولترین توابع فعالسازی مورد استفاده در شبکههای ۲1۷ 8] تابع سیگموید (برای مکانیزمهای دروازهای) و تابع مماس هایپربولیک (۵۳0)
(برای حالت داخلی) هستند.
صفحه 38:
۷ ادامه....
۴ آموزش و پس انتشار
- شبکه های 51 با استفاده از پس انتشار در طول زمان (1 8۳۲ مشابه ]٩(([ های سنتی آموزش داده می شوند.
- گرادیان ها به موقع از طریق شبکه باز شده منتشر می شوند و به شبکه اجازه می دهند پارامترهای (وزن ها) کنترل کننده دروازه ها و سلول های
حافظه را یاد بگیرند و تنظیم کنند.
- فرآیند آموزش شامل بهینه سازی یک تابع هدف. مانند به حداقل رساندن خطای پیش بینی یا به حداکثر رساندن احتمال دنباله هدف است.
مزیت کلیدی شبکه های 1571 تونلیی آن ها در ضبط و به خاطر سپردن وابستگی های دوربرد در داده های متوللی است. مکانیومهای دروزهای به
شبکه اجازه میدهد تا اطلاعات را بهطور انتخلبی حفظ یا فراموش کند. و شبکه را قادر میسازد تا یاد بگیرد کدام بخش از دنبلله ورودی برای پیشبینی
یا طبقهیندی مهم است. این کار باعث میشود شبکههای ۲1۷ 8 در کارهایی که زمینه بلندمدت آن حیاتی است. مانند مدلسازی زبان؛ تشخیص
كفتار. تحلیل احساسات و پیشبینی سریهای زمانی. بهويؤه مؤثر باشد.
شبكههاى 511/1 به دليل تواناب شان در رسيدكى به مشکل محو گرادیان و مدلسازی وابستگیهای بلندمدت.به یکی از پرکربردترین معماریها در
زمینه یادگیری عمیق تبدیل شدهاند. این شبکه هابه طرق مختلف توسعه یافته و اصلاح شده اند. از جمله انواعی مانتد /11 15 چشمی, 15۲0
دوطرفه و LSTM انباشته. تا قابلیت های خود را در برنامه های مختلف افزایش دهند.
صفحه 39:
۸. چگونه ۲1۷ 5 ها به حل مشکل محو گرادیان در 8 کمک می کنند؟
0 ها (حافظه كوتاد مدتطولاني) بسه طور خاصیرلیرسیدگیسه مشکلمحو گرادیاندر ,۱۷] هایس نتی(شبکه هایعصبیب لگشتیع
طراحىشده لند مشكلمحو كراديازيمان إتفاقملفتد كه كرادياهايوكه در طوليمانسه عقبمنتشر ميث وند بسه طور تصاعدیک اهش ی ابند.
و یادگیروو درکولبستگهای_لدمدتدر دادمهایم توا لیرا برلی بکه دشوار مرک ند. !157 هالی نم شکلرا ب-الستفاده از س لولهایحافظه
تخصصیو مکانبرم هایدروازه لیک اهشمیدهند.
در اینجا نحوه کمک 151۷ ها به حل مشکل محو گرادیان آمده است:
۱. سلول های حافظه:
- 1101 كا ها سلول هاى حافظه را معرفى مى كنند كه به شبكه اجازه می دهد اطلاعات را در دنباله های طولانی ذخیره و منتشر کند.
- سلول هاى حافظه يك حللت داخلى دارند كه مى تولند اطلاعات را در طول زمان حفظ كند و شبكه را قادر مى سازد وابستكى هاى طولاتى مدت را
درک کند.
- سلول های حافظه یک مسیر پادار رای انتشار گرادیان ها در طول زمان بدون تخریب قابل توجه را فراهم می کنند.
صفحه 40:
VA ادامه...؟
۲ مکانیزم های درواز
LSTM - ها مکانیزم های دروازه ای را در خود جای می دهند که جریان اطلاعات را به داخل و خارج سلول های حافظه کنترل می کند.
- مکانیزم های دروازه ای شامل توابع سیگموید و CANN هستند که مقادیر و تبدیلات درون شبکه را تنظیم می کنند.
- دروازه های کلیدی در یک 15716 عبارتند از دروازه فراموشی. دروازه ورودی و دروازه خروجی.
آ. دروازه فراموشی
- دروازه فراموشی تعیین می کند که چه اطلاعاتی را از حالت داخلی قبلی حذف کنید.
- عالت داخلى قبلى و ورودى فعلى را به عنوان ورودى و خروجى يك صريب فراموشى بين و١ براى هر عنسر حلات داغاي مي كيرد
- عامل فراموشى تعيين مى كند كه جه مقدار از حالت داخلى قبلى بايد فراموش شود.
صفحه 41:
VA ادامه...؟
ب دروازه ورودی:
- دروازه ورودی تصمیم می گیرد كه کدام اطلاعات جدید را در وضعیت داخلی فعلی گنجانده شود
- حالت داخلی قبلی و ورودی فعلی را بهعنون ورودی می گیرد و برای هر عنصر حالت داغلی یک ضريب ورودى بين ٠ تا ١ را خروجی می کند
- ضریب ورودی نعیین می کند که چه مقدار از اطلاعات جدید ub به وضعیت داخلی فعلی اضافه شود.
ج. دروازه خروجی:
- دروازه خروجی کنترل می کند که چه مقدار از حالت داخلى يايد بهعنوان خروجی در مرحله زمانی فعلی نشان داده شود
- حالت داخلی قبلی و ورودی فعلی را بهعنوان ورودی می گیرد و برای هر عنصر حالت داخلی ضریب خروجی بین ۰ تا ۱ ولید می كند.
- شرب خروجى تين هي أكند كاه مقداراز عالت تاخلى بايد به عنوان خروجي در معرض ديد قرار كيرد
مکانیزمهای دروازه ای به ۲1۷ گاها اجازه میدهند تا اطلاعات را در مراحل مختلف زملنی بهخاطر بسپارند یا فراموش کنند. و به شبکه اجازه میدهد
دنبالههاى طولانى را به طور مؤثرترى مديريت كند.
صفحه 42:
VA ادامه...؟
جريان كراديان:
- مكانيزم هاى دروازه اى در 1:31 كا ها به اطمينان از جريان كراديان ملايم تر در طول زمان كمك مى كند.
- دروازه فراموشى و دروازه ورودى كه توسط توابع سیگموید کنترل می شوند. از محو يا انفجار كراديان ها جلوكيرى مى كتند.
- با به روز رسانی انتخلیی و حفظ اطلاعات در سلول های حافظه. lo LSTM 2 توانند گرادیان ها رابه طور موثرتری در دنبلله های طولانی منتشر
ازد تا وابستگی های طولائی مدت را نگه داری کند.
کنند و شبکه را قادر می
با ترکیب سلولهای حافظه و مکانیزمهای دروازه ای. 1۷1 گاها مکانیزمی را برای |۱|۷*آها فراهم میکنند تا مشکل محو گرادیان را برطرف کنند.
سلول های حافظه به شبکه اجازه می دهد تا اطلاعات را در دنباله های طولانی ذخیره و منتشر كند. در حالی که مکانیزم های دروازه ای. جریان
اطلاعات و گرادیان ها را کنترل می کنند. اين کار به ۷1 آ گاها اجازه میدهد تا وابستگیهای طولانیمدت را در دادههای متوالی دریافت کنند و به
مور موثرتری آموزش دهند. که منجر به بهبود عملکرد در وظایفی میشود كه نياز به مد لسازى روابط زمانى دارند.
صفحه 43:
٩ رمزگذارهای خودکار در یادگیری عمیق چیست؟
رمزگذارهای خودکاره مدلهای یادگیری عمیق بدون نظارت هستند که هدف ن یادگیری ویژگیهای کارآمد یا فشردهسازی دادههای ورودی است. ۱
مدلها از یک رمزگذار و یک رمزگشا تشکیل شده اند که با هم کار می کنند تا داده های ورودی را بازسازی کنند. هدف از رمزگذارهای خودکار به
حداقل رساندن خطای بازسازی است و مدل را مجبور میکند تا ویژگی های معنادار و فشرده را در فرآیند یاد بگیرد.
در اینجا نحوه کار رمزگذارهای خودکار آمده است؛
۱. رمزگذار
- رمزگذار داده های ورودی را می گیرد و آنها را ه یک ویژگی فضای پنهان با اعاد پیین تر نگاشت می BS
- رمزگذار معمولاً از یک یا چند لایه پتهان تشکیل شده است که به تدریج ابعاد ورودی را کاهش می دهد.
- هر لایه پنهان یک تبدیل خطی و به دنبال آن یک تلبع فعال سازی غیرخطی مانند 51000010 یا ل1 86 اعمال می کند تا رولبط غیر خطی در
داده ها را درک کند.
- لابه ينهان نهابى ويزكى نهفته فشرده را كه به و و
صفحه 44:
٩ ادامه..؟
۲ رمزگشا
- رمزکشا ویژگی فشرده شده را از رمزگذر می گیرد و سعی می کند داده های ورودی اصلی را بازسازی کند
رمزگشا نیز مانندرمزگذار معمولً از یک یا جند لايه بنهان تشکیل شده
- هر لايه بنهان يك تبدیل خطی و به دنبال آن يك تابع فعال سازى اعمال مى كند تا ویژگی فشرده شده را ه اعد ورودی اصلی نگاشت کند.
- لايه نهابى رمزكشا خروجى بازسازى شده را توليد مى كند كه در حالت ايده آل بايد شباهت زيادى به ورودى اصلى داشته باشد.
صفحه 45:
٩ ادامه...؟
رمزكفارهاى شود فا روکد ری دنفرت آوزش اه ی ود
ign GaAlAs Gals ale dicen
تواع زيان متدلول مورد فاده راى رم زكذاهاى خودكار شامل ميذكين مربعات MSE) یی یل any las ane tg
ون بر رز طرش پس ارو ول ردب وم شود خی مزب ال برد
رو خر دی کردم رت زد
sas
ب Hk ly lets PA ى تود عل ذل ها ورودى راب طور مور كاطق دهن
ين كل مى توق را نیش داد هی عا يل gal gti i a ای زاین هتی فد اد
مس ور
Pane ye Hi cay هی دی ام نات مهم درک ند
نيس مى تان Sig EI موخت lyn نی دی تست تفت ماد طبقه دی پا زگرسون اس كود
yl dl a sgh ls LY oy LL gos ay go Noh دی تشخ دهند
heh ul yaar pena os Ds يعار حار جد مان معبدم a ths ftp لس
صفحه 46:
٩ ادامه..؟
۴ نویز زدایی:
- رمزگذارهای خودکار را می توان برای بازسازی داده های تمیز از ورودی های نویز آموزش داد.
- با یادگیری نادیده گرفتن يا حذف نویز در طول فرآیند بازسازی, رمزگذارهای خودکار می تونند سیگنال زیر را حذف کرده و بزیبی کنند.
۵ مدل سازی مولد
- انواع رمزگذارهای خودکاره مانند. رمزگذارهای خودکار متغیر (۷//۹۳5). می توانند بای کارهای مدل سازی مولد استفاده شوند.
- ۷/۶ ها مى تونند توزیع احتمالی را در فضای پنهان بیاموزند و اجازه تولید نمونه های جدید مشابهداده های آموزشی را می دهند.
رمزگذارهای خودکار چارچوبی منعطف و قدرتمند برای یادگیری بدون نظارت و نمایش ارائه می دهند.آنها می تونند نمليش هاى فشرده را بياموزقد.
ویژگی های معنی دار را استخراج کنند. ناهنجاری ها را تشخیص دهند. و حتی نمونه های داده جدیدی تولید کنند. رمزگذارهای خودکار با توانایی خود
در ضبط و فشرده سازی اطلاعات به ابزار مهمی در زمینه یادگیری عمیق تبدیل شده اند.
صفحه 47:
۰ چگونه می توان از رمزگذارهای خودکار برای کاهش ابعاد استفاده کرد؟
رمزگذارهای خودکار می توانندبرای کاهش ابعد با استفاده از تونیی آنها در یادگیری ویژگی های فشرده داده های ورودی استفاده شوند. در اينجا نحوه
استفاده از رمزگذارهای خودکار برای این منظور آورده شده است:
۱. آموزش رمزگذار خودکا
- برای استفاده از رمزگتار خودکاربرای کاهش ابعاف بايد مدل را روی داده های ورودی خود آموزش دهید.
- رمرگذار خودکار از یک شبکه رمزگذار ویک شبکه رمرگشا تشتکیل شده است که یک لابه کلوگاه در بین لن قرار دارد که ویزگی فشرده شده را نشان
Rast
- در طول آموزش. رمزكذار ياد مى “كيرد كه داده های ورودی را به ویژگی فشرده نگاشت کند و رمزگشا یاد می گیرد که ورودی اصلی را از ویژگی
فشرده بازسازی کند.
صفحه 48:
۰ ادامه...؟
۲ نمایش فشرده:
- پس از آموزش, لایه گلوگاه خودکار رمزگذار ننشان دهنده ویژگی فشرده يا فضاى ينهان |.
- اين فضاى پنهان معمولاً در مقایسه با داده های ورودی اصلی ابعاد کمتری دارد
- هر نقطه در قضای پنهان مربوط به یک ویژگی فشرده از یک نمونه ورودی است.
© رمركنارى و ریا
- برای اتجام کاهش ابعاد با استفاده از رمزكذار خودكار آموزش ديدهء مى توانيد از شبكه رمزكذار براى رمزكذارى داده هاى ورودى خود استفاده كنيد.
- رمزكذار داده هاى ورودى را به نمايش فضاى بنهان با ابعاد بايين تر نكاشت مى كند.
- ابعاد فضاى بتهان به علور معمول بر اساس بطح مطلوب قشرده مازى يا كله ابعاد انتخاب مى شود
صفحه 49:
۰ ادامه...؟
۴ استخراج ویژگی کاهش يافته:
- هنگامی که داده های ورودی در فضای پنهان کدگذاری می شوند. می توانید ویژگی فشرده را از لایه گلوگاه استخراج کنید.
- این ویژگی فشرده نشان دهنده یک جاسازی با ابعاد پایین تر از داده های اصلی است.
با استفاده از رمزگذارهای خودکار برای کاهش ابعاد. می توانید به مزایای زیر دست یابید:
۱. کاهش ابعاد:
- رمزگذارهای خودکار به شما امکان می دهند ابعاد داده هاى ورودى با ابعاد بالا را كاهش دهيد.
- ويزكى فشرده در فضاى بنهان ابعاد بابين ترى نسبت به داده هاى اصلى دارد كه مى تواند کارهای تجزیه و تحلیل یا نمایش بعدی را ساده کند.
۲ حفظ ویژگی های مهم:
- رمزگذارهای خودکار با هدف یازسازی ورودی اصلی از نمایش فشرده. که مدل را تشویق می کند تا مهمترین ویژگی های داده ها را به تصویر بکشد.
یژگی فشرده آموخته شده مرتبط ترین اطلاعات را حفظ می کند. در حالی که ویژگی های اضافی یا کمتر مهم را کنار می گذارد.
صفحه 50:
۰ ادامه...؟
۳ حذف نویز:
- رمزگذارهای خودکار همچنین می توانند برای حذف نویز داده های ورودی در طول فرآیند بازسازی استفاده شوند.
- رمزگذار یاد می گیرد که اطلاعات معنی دار را از داده های نویزدار استخراج کند. در حالی که رمزگشا سعی می کند داده های اصلی و تمیز را
بازسازی کند.
- این اثر حذف نویز می تواند هنگام برخورد با داده های ورودی نویزدار یا خراب مفید باشد.
۴ حفظ روابط:
- رمزگذارهای خودکاره با درک ساختار زیربنایی داده هاء می توانند روایط خاصی را بین نقاط داده در ویژگی فشرده حفظ کنند.
- نقاط داده مشلیه در فضای اصلی اغلب در ویژگی فشرده یه یکدیگر نزدیک هستند. که امکان خوشه بندی معنادار یا تجزیه و تحلیل مشابه را فراهم
فى كيد
رمزكذارهاى خودكار يك رويكرد قدرتمند براى كاهش ابعاد ارائه مى كنند. زيرا مى توانند ويذكى های معنی دار و فشرده داده های ورودی را بیاموزند. با
استفاده از ویژگی های فشرده به دست آمده از لایه گلوگاهه می توانید به طور موثر ابعاد داده های خود را كاهش دهيد و در عين حال اطلاعات مهم را
حفظ كنيد و به طور بالقوه وظايف تجزیه و تحلیل بعدی را ساده کنید.
صفحه 51:
مفهوم شبکه های مولد تخاصمی (31)) چیست؟
شبکههای مولد تخاصمی (3/۵/15)) کلاسی از مدلهای یادگیری عمیق هستند که از دو جزء تشکیل شدهاند: یک شبکه مولد و يك شبكه متمايزكر.
۷ ها برای تولید نمونه های جدید داده ای طراحی شده اند که شبیه cold های آموزشی باشند و با قرار دادن مولد در مقابل متمایزگر به شیوه ای
رقايتى عمل عي النند.
در اينجا نحوه عملكرد [6/41 ها آمده است:
.١ شبكه مولد:
- شبكه مولد تويز ورودى تصادفى (بردار فضاى بنهان) را به عتوان ورودی می گیرد و سمی می کند نمونه هاى داده مصتوعى توليد كتد.
- مولد با نویز تصادفی شروخ می شود و به تشریج آن را به تمونه های داده ای تبدیل می کند که شبیه داده های آموزشی
- معمولاً از جندين لايه. از جمله لايههاى تمام متصل يا كانولوشتال تشكيل شده و به دنبال آن توابع فعالسازى قرار مىكيرند.
۲ شبکه متمایزگر
- شبکه متمایزگر به عنوان یک طیقه بندی کتنده باینری عمل مى کند که بین نمونه داده های واقعی و تولید شده تمایز
ل مى شود.
- يك نمونه داده واقعى از مجموعه آموزشى يا يك نمونه توليد شده از مولد را به عنوان ورودى مى كيرد و واقعى يا جعلى بودن آن را بيش بينى مى كند.
متمایزگر با استفاده از ipa داده های واقعی با برچسب gaily | نمونه های تولید شده با برچسب “جملى" أموزش سى بیند.
صفحه 52:
FY دامه..؟
۳ آموزش خصمائه:
- شبکه های مولد و متمایزگر به طور همزمان به صورت خصمانه آموزش داده می شوند
- هدف مولد تولید نمونه های مصنوعی است که متمایزگرنتواند از نمونه های واقمی تشخیص دهد.
- هدف متمایزگر طبقه بندی صحیح بین نمونه های واقعی و تولید شده است.
- شبكه هاى مولد و متمايزكر با يكديكر رقابت مى کنند و هر كدام سعى مى كنند از ديكرى بيشى بكيرند.
۴ فرآیند آموزش:
- فرآیند آموزش به طور متناوب بین به روز رسانی مولد و شبکه های متمایزگر است.
- در طول هر تکرار. دسته ای از نمونه های داده واقعی و دسته ای از نمونه های تولید شده برای به روز رسانی وزن های متمایزگر استفاده مى شود.
- وزن های مولد بر اساس گرادیان های تصمیم متمایزگر نسبت به نمونه هاى توليد شده به روز مى شود.
- این روند آموزش خصمانه تا زمانی ادامه می یابد که مولد نمونه های مصنوعی تولید کند که از نمونه های واقعی قابل تشخیص نیستند.
صفحه 53:
FY دامه..؟
Le GAN Gan آموزش شبکه مولد برای یادگیری توزیع زیربنایی داده های آموزشی است و آن را قادر می سازد نمونه های جدیدی تولید کند که
شبیه داده های واقعی است. مولد با یادگیری از بازخورد ارلئه شده توسط متمایزگر بهبود می یابد. با پیشرقت آموزش, مولد در تولید نمیته های واقمی
بهتر می شود. در حالی که متمایزگر در تمایز ین نمونه هایواقمی و تولید شده دقیق تر می شود.
GAN هابه ملیلوناییآنها در تسولید دادم هایمصوعی سير ولقمىو متنوع توجه قابلتوجهورا به خود جلبک رده اند آنها با موفقيتدر
حوزم هایمختلفاز جمله سنتر تصویر سولید متن تسولید موسیقیو تولید ویدئو استفادم شده لن. 3۸(1) ها همچنینسه پسیشرفتهایدر زمینه
هايىمانند تسرجمه تسصویر پسه تسصویر, انتقللیسبکو دادم افزلییدستی افته لندو لمکاناتهیجاانگیزی اب رلک ربردهایشافانه و تسولید دادم در
بادكيرىعميقارلئه مودهند
صفحه 54:
۲ اجزای مولد و متمایزگر |66 ها را توضیح دهید.
در یک شبکه مولد تخاصمی ((3۸)). دو جزء کلیدی وجود دارد: شبکه مولد و شبکه متمایزگر. این اجزا به شیوه ای رقابتی برای آموزش GAN 9
تولید داده های مصنوعی واقعی کار می کنند. در اینجا توضیحی در مورد هر جزء آورده شده است:
.١ شبكه مولد
- شبكه مولد مسئول توليد نمونه هاى داده مصنوعى است كه شبيه داده هاى آموزشى
- نويز تصادفى را كه اغلب به عنوان بردار فضاى ينهان نشان داده مى شود. به عنوان ورودى مى كير
- مولد . نويز ورودى را به یک خروجی معنی دار تبديل مى كند كه شبيه توزيع داده هاى آموزشى است.
- خروجی می تواند بر اساس a مانند تصاويرء متن يا صدأ متفاوت باشد.
- به طور معمول, شبکه مولد از چندین لایه. از جمله لایههای تمام متصل یا کانولوشن تشکیل شده است. و به دنبال ن توابع فعالسازی مانند
(۱ا86 یا 51070010 وجود دارد.
- در طول آموزش, مولدیاد می گیرد که با به حداقل رساندن توانلیی متمایزگربرای تملیزبین نمونه های واقعی و تولید شده. نویزورودی رابه توزبع
داده های واقعی ترسیم کند.
صفحه 55:
۳ دامه...
۲ شبکه متمایزگرء
- شبکه متمایزگربه عنوان یک طبقه بندی کننده بینری عمل مى كند كه بين نمونه هاى داده واقعى و نمونه های توليد شده (جعلى) تمليز قلثل می
شود
- يك نمونه داده واقعى از مجموعه [موزشى يا يك نمونه توليك شده از مولد را به عنوان ورودى می گیره
- هدف شیکه متمایزگر تشخیص واقعی با جعلی بودن نموتهپرودی با تلد استياز احتمال است.
- متمایزگر معمولاً یک شبکه عصبی کانولوشن (/(2۱۷)) یا یک شبکه عصبی پیشخور با چندین لایه است.
با بهینه سازی وزن خود از طریق آموزش, می آموزد که بین نموه ای واقمی و جعلی تمیز ال شود
- در طول آموزش, هم نمونههای واقمی و هم نمونههای تولید شده در اختيار متمايزكر قرار مى كيرد و ياد مى كيرد كه احتمالات بالا ريه نمونه هلى
واقعی و احتمالات پا
را به نمونه های تولید شده اختصاص دهد.
صفحه 56:
۳ دامه...
فرآیند آموزش:
- فرآیند آموزش 6818 ها شامل يك خلقه آموزشى متخاصم بین مولد و متمایزگر است.
- هدف مولد بهبود توالیی خود در تولید نمینه هایواقعی است. در حللی که هدف متمایزگربهبود تونلیی خود در تشخیص نمونه های واقعی و تولید
شده است.
- مولد و متمايزكر به طور متنوب در هر تکرار ا دسته کوچک آموزش داده می شوند
- در طول آموزش متمایزگره با ترکیبی از نمونه های واقعی و تولید شده ارائه می شود و برای بهبود عملکرد طبقه بندی آن به روز می شود.
- سپس مولد با استفاده از گرادیان های به دست آمده از تصمیم متمایزگر بر روی نمونه های تولید شده آموزش داده مى شود و هدف آن تولید نمونه
هایی است که می تواند متمایزگر را فریب دهد.
- لین فرآیند آموزش خصمانه به طور مکرر ادامه می یلبد تا زملنی که مولد بتولند نمینه های مصنوعی تولید کند که از نمینه های واقعی قلیل تشخیص
صفحه 57:
۳ دامه...
Al = ell
آموزش مولد و متمایزگر با هم. 63/01 ها یاد می گیرند که داده های مصنوعی تولید کنند که بسیار شبیه به داده های آموزشی واقعی است. مولد
توانلیی خود را برای تولید نموته های واقعی با یادگیری از بازخورد ارلئه شده توسط متمایزگر بهبود می بخشد. به طور همزمان» متمایزگر در تمایز
4 2 ای
A ینه های وا شده دقیق 3 تق
نمونه های واقعی و تولید شده دقیق تر می شود. این فعل و انفعال متقابل بین مولد و متمایزگر. 63/0۸۷ را قادر می سازد تا به تدریج توانایی خود را
برای تولید داده های مصنوعی با کیفیت بالا بهبود بخشد.
212111111 ۲ 9
توجه به این نکته مهم است که هم شبکه مولد و هم شبکه متمایزگر را می توان تغییر داد يا گسترش داد تا با كاربردهاى خاص مطابقت داشته باشند يا
به ویژگی ها دلخواه دست ب خنا i :
ويزكى نجاى خروجى دلخوا يابند نتخلب های مختلف معماری و استراتیی های آموزشی را می توان برای افزایش عملکرد و پایداری GAN
ها در توليد داده هاى مصنوعى واقعى و متنوع مورد بررسى قرار داد.
صفحه 58:
۳ تفاوت بین یادگیری با نظارت. بدون نظارت و نیمه نظارتی چیست؟
تفاوت بین یادگیری با نظارت. بدون نظارت و نیمه نظارتی در نوع داده های موجود در مرحله آموزش و اهداف یادگیری نهفته است. در اینجا توضیحی
در مورد هر یک آمده است؛
.یادگیری با نظارت:
یادگیری با نظارت داده های آموزشی شامل نمونه های برچسب گذاری شده است. جلیی که هر نقطه داده با یک هدف یا برچسب مربوطه
- هدف یادگیری یک نقشه برداری از ویژگی های ورودی به برچسب های خروجی بر اساس داده های برچسب دار اراثه شده است.
- در طول آموزش, مدل با جفت ورودی-خروجی ارائه می شود و یاد می گیرد که از اين مثال ها تعمیم دهد تا داده های دیده نشده را پیش بینی کند.
- عملكرد مدل با استفاده از یک تلبع خطا یا زین از پیش تعریف شده ارزیابی می شود و خروجی های پیش بینی شده ن راب برچسب های واقمی
مقایسه می کند,
- یادگیری با نظارت معمولاً برای کارهای طبقه بندی, رگرسیون و پیش بینی دنبلله استفاده می شود. جایی که متغیر هدف در طول آموزش مشخص
صفحه 59:
۳ ادامه.
يادكبرى بدون نظارت:
يادكيرى بدون نظارت. داده هاى آموزشى از نمونه هاى بدون برجسب تشكيل شده است. به اين معنى كه هيج برجسب هدف صريحى مرتبط با
داده ها وجود ندارد.
- هدف یافتن الگوها. ساختارها یا روابط درون داده ها بدون راهنمایی اطلاعات برچسب گذاری شده است.
- هدف الگوریتمهای یادگیری بدون نظارت استخراج نمایشهای معنادار. گروهبندی نقاط داده مشابه یا شناسایی توزیعهای اساسی در دادهها است.
- نمونههایی از الگوریتمهای یادگیری بدون نظارت شامل الگوریتمهای خوشهبندی ( به عنوان مثال, خوشهبندی (K-MOANS تکنیکهای کاهش
see (GAN تولیدی (مانند رمزگذارهای خودکار. cla Joc 9 (PCA asits) ole!
- یادگیری بدون نظارت به ويه زملنى مفيد است که دادههای برچسب گذاری شده محدودی وجود داشته باشد يا وجود نداشته باشد. يا زملنى كه هدف
كاوش و كسب بينش از دلدمها باشد.
صفحه 60:
۳ ادامه.
يادكيرى نيمه نظارتى:
- يادكيرى نيمه نظارتى بين يادكيرى با نظارت و بدون نظارت قرار دارد و عتاصر هر دو را تركيب مى كند.
یادگیری نیمه نظارتی.داده های آموزشی حاوی ترکیبی از نمونه های برچسب دار و بدون برجسب است.
- هدف استفاده از داده های برچسب دار محدود و داده های بدون برچسب اضافی برای بهبود عملکرد یادگیری است.
- هدف الگوریتمهای یادگیری نیمهنظارتی استفاده از دادههای برچسب گذاریشده برای یادگیری یک مدل و استفاده از دادههای بدون برچسب برای
درک توزیع يا ساختار زیربنایی دادهها است.
با استفاده از دادههای برچسبدار و بدون برچسب. یادگیری نیمهنظارتی به طور بالقوه میتولند عملکرد بهتری نسبت به رویکردهای یادگیری صرفاً با
نظارت داشته باشد. زمانی که دادههای برچسب گذاری شده کمیاب یا گران است.
- در یادگیری نیمه نظارتی می توان از روش هایی مانند خودآموزی, آموزش مشترک و مدل های مولد ستفاده کرد
صفحه 61:
۳ ادامه.
انتخاب پارادایم یادگیری به در دسترس بودن داده های برچسب گذاری شده. کار خاص در دست و اهداف یادگیری مورد نظر بستگی دارد. یادگیری با
نظا
ارت زمانی متاسب است که دادههای برچسب گذاری شده فراوان یاشد و هدف یادگیری نقشهبرداری بین ویژگیهای ورودی و برچسبهای خروجی
باشد. یادگیری بدون نظارت برای کاوش داده هاء کشف الگوها و استخراج نمایش بدون برچسب های هدف صریح استفاده می شود. یادگیری نیسه
نظارتی زمانی به کار می رود که ترکیبی از داده های برچسب دار و بدون برچسب وجود داشته باشد و هدف لین است که از هر دو برای بهبود عملکرد
یادگیری استفاده شود.
صفحه 62:
۴ یادگیری انتقالی در یادگیری عمیق چیست؟
یادگیری انتقالی تکنیکی در یادگیری عمیق است که از دانش آموخته شده از یک کار یا حوزهبرایبهبود یادگیری یا عملکرد در یک کار یا حوزه
مرتبط دكر استفاده مى كند اين كار شامل كرفتن يك متل از يي آموزش دیده است که اعلب بر روی مک مسموعه داده بزرگ آنوزش داده شده
است و از آن به عنوان نقطه شروع برای یک کار یا دامته جدید با داده های برچسب گذاری شده محدود استفاده می کند. به جای آموزش یک مدل از
ابتدا در کار جدید. یادگیری انتقالی به مدل اجازه می دهد تا از ویژگی ها و دانش آموخته شده قبلی بهره مند شود.
در اینجا نحوه یادگیری انتقالی توضیح داده شده است:
صفحه 63:
۴. دامه..؟
موی
- در یادگیری انتقالی, یک مدل از پیش آموزش داده شده در ابدا بر روی یک مجموعه دادهبزرگ, به طور معمول در یک وظیفه یا حوزه مرتبط
Seabee!
آموزش معمولاً بر روی یک مجموعه داده در مقیاس بزرگ انجام می شود. مانتد 1۳896/164 برای طبقه بندی تصویر یا یک مجموعه متن
بزرگ برای وظایف پردازش زبان طبیعی.
- در طول آموزش. مدل. ويزكىها. الكوها يا نمايشهاى کلی را میآموزد که برای وظیفه های مختلف مفید هستند
۲انتقال:
-پس از پیش آموزش, ویژگی ها یا وزن های آموخته شده مدل از پیش آموزش ديده به عنوان نقطه شروع براى يك وظيقه یا حوزه جدید استفاده می
فد
- لايدهاى نهايى مدل از بيش آموزشديده. كه مختص وظيفه يا دامنه خاص هستند. براى تطبيق با وظيفه جديد جايكزين شده يا بدخوبى تنظيم
میشوند.
- وظیفه جدید ممکن است در مقایسه با مجموعه داده اصلی پیش آموزش, مجموعه داده برچسبدار کوچکتری داشته باشد.
صفحه 64:
۴. دامه..؟
۲ تنظیم دقیق:
- در فرآیند یادگیری انتقالی؛ وزنهای مدل پیش آموزش با استفاده از دادههای برچسبگذاری شده مخصوص وظیفه جدید. با دقت بیشتر تنظیم
میشوند.
- پارامترهای مدل با استفاده از دادههای برچسب گذاریشده از وظیفه جدید بهروزرسانی میشوند. در حالی که لایهای اولیه یا ویژگیهای سطح
بايينتر اغلب ثابت يا با سرعت بادگیری پایینتر تنظیم میشوند.
- تنظيم دقیق به مدل اجازه می دهد تا ویژگی های آموخته شده خود را با ویژگی ها و الزامات خاص وظیفه جدید.
مزاياى يادكيرى انتقالى عبارتشد از:
.١ كاهش زمان آموزش:
- يادكيرى انتقالى مى تواند زمان آموزش و منابع محاسباتى مورد نياز براى آموزش يك مدل يادكيرى عميق را به ميزان قابل توجهى كاهش دهد.
- با شروع با وزن هاى از بيش آموزش داده شده. مدل قبلا ويزكى هاى عمومى را ياد كرفته است كه تعداد تکرارهای مورد نیاز برای همگرایی در وظیفه
جديد را كاهش مى دهد.
صفحه 65:
۴. دامه..؟
۲ بهبود عملکرد:
- یادگیری انتقالی می تواند منجر به بهبود عملکرد شود. به خصوص زمانی که وظیقه جدید دارای مقدار محدودی از داده های برچسب دار باشد.
- مدل از پیش آموزشدیده. ویژگیهایی را از یک مجموعه داده بزرگ آموخته است. و ویژگیهای کلی را که میتولند در وظیفه جدید مفید باشد. به
Spe
5
- یادگیری انتقالی به مدل ها اجازه می دهد تا با استفاده از دانش آموخته شده از وظیفه های قبلی» بهتر به وظیفه ها یا حوزه هاى جديد تعميم دهند.
- مدل از پیش آموزش دیده ياد گرفته است که ویژگی های مرتبط و مفید را از مجموع داده اصلی استخراج کند که می تولدبرای وظیفه های مرتبط
مفید باشد.
یادگیری انتقالی معمولً در برنامه های مختلف یادگیری عمیق از جمله طبقه بندی تصویره تشخیص اشیا. پردازش زبان طبیعی و تشخیص گفتار
استفاده می شود. لین کار امکان استفاده مجدد و انتقال دلنش را در میان وظیفه ها و مجموعه دادهها فراهم میکند و یادگیری کارآمد و موثر را حتی
زمانی که دادههای برچسبگذاری شده محدود هستند. تسهیل میکند.
صفحه 66:
۵ یادگیری انتقالی چگونه به بهبود مدل های یادگیری عمیق کمک می کند؟
يادكيرى انتقالى به جندين روش به بهبود مدل های یادگیری عمیق کمک می کند
۱. استفاده از مدل های از پیش آموزش دیده: یادگیری انتفالی به ما امکان می دهد از مدل های از پیش آموزش دیده استفاده کنیم که بر روی مجموعه
داده های بزرگ مقیاس آموزش دیده اند. لين مدل هاى از پیش آموزش دیده ویژگی های کلی, الگوها و ویژگی هلیی را آموخته لند که در طیف وسیعی
از کارها مقید هستند, با شروع با این مدل های از پیش آموزش دیده می توانیم از داتشی که آنها به دست آورده لند بهره مند شویم و ما وا از نباز به
آموزش یک مدل از ابتدا نجات دهیم.
۲. تعمیم: مدل های یادگیری عمیق که بر روی مجموعه داده های بزرگ مقیاس آموزش oslo شده لن. اغلب ویژگی های غنی و تعمیم یافته ای را می
آموزند که قلبل انتقال به وظیفه ها یا حوزه های جدید هستند. یادگیری انتقللی مدل را قادر می سازد تا با انتقال این دانش آموخته شده به وظیفه
هدف, به خوبی تعمیم یلبد. حتی زملنی که کار وظیفه دارای مقدار محدودی از داده های برچسب گذاری شده است. مدل از پیش آموزشدیده مفاهیم
سطح بالا و ویژگیهای سطح پایین را به تصوير میکشد که میتوانند در وظیفه های مختلف مرتبط و مفید باشند.
صفحه 67:
۵ ادامه ...۲
۳. استخراج ویژگی: یادگیری انتقالی به ما امکان می دهد از مدل از پیش آموزش دیده به عنوان استخراج کننده ویژگی استفاده کنیم. ما می توانیم لایه
های نهایی مدل از پیش آموزش دیده را حذف کنیم و از لايه هاى میانی برای استخراج ویژگی های معنی دار از دده های ورودی استفاده کنیم. این
ویژگیها سپس میتوانند به طبقهبندی کننده یا مدل جدیدی که بهطور خاص برای وظیفه هدف طراحی شده است. وارد شوند. این رویکرد به وه
زمانی مفید است که وظیفه جدید .داده های برچسب گذاری شده محدودی داشته باشد. زیرا از نیاز به آموزش یک مدل عمیق از ابتدا جلوگیری می
کند.
۴ کاهش زمان آموزش و منبع مورد نياز: با استفاده از مدل هاى از بيش آموزش ديده. يادكيرى انتقللى زمان آموزش و منلبع محاسباتی مورد نیا رای
آموزش يك مدل يادكيرى عميق را کاهش می دهد. آموزش مدل های عمیق از ابتدا اغلب به مقدار زیادی داده برچسب دار و منابع محاسباتی گسترده
نياز دارد. با اين حال با یادگیری انتقالی. میتونیم با وزنهای از پیش آموزشدیده شروع کنیم و با استفاده از مجموعه دادههای برچسبگذاریشده
کوچکتر مدل را روی وظیفه هدف تنظیم کنیم و در زمان و منابع صرفهجویی کنیم.
صفحه 68:
۵ ادامه ...۲
۵. بهبود عملکرد: یادگیری انتقالی اغلب منجر به بهبود عملکرد در وظیفه هدف می شود. با استفاده از یک مدل از پیش آموزش دیده به عنوان نقطه
شروع. مدل از قبل دارای مقداردهی اولیه خویی است و ویژگی های عمومی را از مجموعه داده های پیش از آموزش ,آموخته است. تنظیم دقيق مدل در
وظیفه هدف به آن کمک می کند تا ويژگي های آموخته شده خود رابا ویژگی ها و الزامات خاص وظيفه جديد تطبيق دهد: که منجربه بهبود عملکرد
در مقايسه با آموزش از ابتدا مى شود.
.به طور كلى. يادكيرى انتقللى يك تكنيك قدرتمند در يادكيرى عميق است كه ما را قادر مىسازد از دانش و ویژگیهای آموختهشده از پیشآموزش در
مجموعههاى داده در مقياس بزرك استفاده كنيم. اين كار به بهبود عملكرد مدل كاهش زمان آموزش و منابع مورد نياز. و تسهيل تعميم به وظيفه ها يا
حوزه هاى جديد كمك مى كند.
صفحه 69:
۶ مفهوم جاسازی کلممدهءوصن00عطصه ۷۵۳) را توضیح دهید.
جاسازی کلمات تکنیکی در پردازش زبان طبیعی (۱!]0) است که کلمات رابه صورت بردارهای متراکم و کم بعدی در یک فضای برداری پیوسته نشان می
دهد. مفهومی که در پس جاسازی کلمات وجود دارد. به دست آوردن روابط معنایی و نحوی بین کلمات بر اساس ویژگی های توزیعی آنها در یک پیکره
معین است. با نمایش کلمات به عنوان بردرءمیتوئیم عملیات ریاضی روی آنهاانجام دهیم. شیاهت آنها را اندزهگیری کنیم و از آنها به عنوان ویزگی در
کارهای مختلف "]لا| استفاده کنیم.
در اینجا یک نمای کلی از نحوه کار جاسازی کلمات آورده شده است:
.١ فرضيه توزيع:
- شالوده جاسازى كلمات . فرضيه توزيعى است كه بيان مى كند كلماتى كه در بافت هاى مشابه ظاهر مى شوند. معانى مشابهى دارند.
- ایده این است که ممنای یک کلمه رامی توان ازمتنی که در آن خر يك ييكره ظاهر مى شود استنياظ كرف
۲فرآیند آموزش:
- جاسازی کلمات معمولاً از طریق روشهای یادگیری بدون نظارت. مانند شبکههای عصبی, که مقادیر زیادی از دادههای متنی را تجزیه و تحلیل م ىكنند.
یاد میگیرند.
مر
در طول آموزش, یک مدل به بافت کلمات در يك مجموعه داده شده نكاه مى كند و ياد مى كيرد که کلمات اطراف یا کلمات متن را پیش بینی کند.
- مدل پارامترهای داخلی خود را تنظیم می کند (وزن های جاسازی شده) تا احتمال پیش بینی دقیق کلمات متن را به حداکثر برساند.
صفحه 70:
۶ ادامه... .
یی در مرا
- خروجی فرآیند آموزش مجموعه ای از جاسازی های کلمه است که در آن هر کلمه به صورت یک بردار متراکم در یک فضای برداری پیوسته
داده مي شود
می شو
- اين بردارها روط معنایی و نحوی بین كلمات را بر اساس كاربرد متنى آنها در مجموعه آموزشی نشان می دهد.
- کلماتی که در زمینههای مشابه ظاهر میشوند. تمایل دارند ویژگی های برداری مشایهی داشته باشند. که مدل را قادر میسازد تا شباهتها و
تناسبات بین کلمات را به تصوي
۴ شباهت و فاصله:
- جاسازی کلمه به ما امکان می دهد شباهت پین کلمات را با استفاده از عملیات برداری مانند شباهت کسینوس یا فاصله اقلیدسی اندازه گیری کنیم.
- کلماتی با معانی یا کاربردهای مشایه دارای بردارهایی نزدیک به هم در فضای برداری خواهند بود که در نتیجه امتیاز تشابه بالایی به دست می آید.
- براى مثال. بردارهای "شاه"
از بردار "سيب" خواهدد بود
صفحه 71:
۶ ادامه... .
۵. کاربرد در وظیفه های ٩/18
- جاسازی های کلمه همه کاره هستند و به طور گسترده در کارهای مختلف ۱1۳ از جمله تجزیه و تحلیل احساسات ترجمه ماشیتی. شناسابی
موجودیت نام دار و طبقه بندی اسناد استفاده می شود.
- در لين كارهاء جاسازى کلمات به عنوانویژگبی های ورودی به مدل های یادگیری ماشین یا بهعنوان ویژگی ای برای کارهای پایین دستی عمل می
کشد.
- جاسازی های کلمه روابط معنایی را درک می کنند. به مدل ها اجازه می دهند تا بهتر تعمیم دهند. کلمات خارج از واژگان را مدیریت کنند. و
موضوع و معنای کلمات را درك كتند.
الگوریتم های رلیچ جاسازی های کلمه عبارتند از 310/6) ,۷۷۵۲/2۱/66 (بردارهای جهلنی برای ویژگی کلمه). و 35116. لین الگوریتمها بر
روی مجموعههای بزرگ آموزش داده شدهلند و جاسازیهای کلمات از پیش آموزشدیدهشدهای را رلئه میکنند که میتوانند مستقیمً با به خیبی برای
وظیفه های خاص مورد استفادهقرار كيرند.
جاسازیهای کلمه با امکان دادن به مدلها برای درک اطلاعات معنایی غنی در مورد کلمات و روابط آنها انقلابی در "-]ل] ایجاد کرده است. آنها ویژگی
قدرتمندی از داده های متنی را اراکه می دهند و درک پهتر تفسیر و دستکاری زبان طبیعی را تسهیل می کننده
صفحه 72:
۷ چند مدل از پیش آموزش دیده محبوب برای وظایف پردازش زبان طبیعی نام ببرید.
جندین مدل از پیش آموزش دیده محبوب برای وظليف يردازش زبان طبيمى (۱۷10) وجود دار لین مدلها از قمل بر روی مجموعههای بزرگ آموزش دلده شدماند
وتا هاى ون قذي رايد تسوير دي تشنت ويه آرزها أجاره هته ease ks ot رن که ووگی رای کرمی خی فلا تیم
شوند. در اینجا چند مدل از پیش آموزش دیده پرکاربرد آورده شده است:
Word2Vec.\
Word2Vec یک الگوریتم یادگیری بدون نظارت ااست که جاسازی کلمات را از مجموعه های متتی بزرگ یاد می گیرد
های برداری متراکمی وا برای کلمات اراته می دهد و روابط معنایی را بر اساسی استفاده زمینه ای آنها ياد مى كيرد
مدل های ۷۷۵۲۵2۷/66 از
برای کارهای مختلف .۱1 استفاده شوند
آموزش دیده:مانتد مدل های آموزش داده شده در مجموعه داده های ۱161۷5 ۳00916), در دسترس هستند و می توانند
60۷6 ۲
Ss GloVe (Global Vectors for Word Representation) £29 از الكوريتم هاى محبوب يادكيرى بدون نظارت براى جاسازى كلمات
است.
مدل های 50۷6 بردارهای کلمه را با فاکتورسازی ماتریس همزمانی کلمات یاد مى كيرند.
۱
برای وظیفه های 1۴| استفاده میشوند.
صفحه 73:
۷ ادامه..؟
FastText +
- )۳35۲۲6 الگوریتم ۷۷0۲02۷/6توسعه یافته است که اطلاعات زیر کلمه را نیز در نظر می گیرد.
- کلمات را به عنوان مجموع کاراکتر 0-0۳310] نشان سی دهد. و آن را قادر می سازد تا اطلاعات صرفی را دریافت کند و کلمات خارج از واژگان را
مدیریت کند.
- مدلهای 85176۴ از پیش آموزشدیدهشده. مانتد مدلهایی که در ویکیپدیاء Crawl 20۱۲۵۲۱ یا مجموعه دادههای خاص زبان خاص
آموزش دیدهاند. برای کارهای مختلف در دسترس هستند.
BERT (Bidirectional Encoder Representations from Transformers) +
921٩۲ - یک مدل مبتنی بر ترانسفورمر است که مفهوم مدل سازی زان ماسک و پیش بینی جمله بعدی را معرفی کرد.
ی وهی ee ی و
- 861۲ در کارهای مختلف !| به عملکردی پیشرفته دست یافته است و به طور گسترده مورد استفاده قرار گرفته است.
- مدل هاى 8151 از قبل آموزش ديده. از جمله مدل هاى بايه و مدل های بزرگ در دسترس هستند و می توانند برای وظیفه های خاص به خوبی
el
صفحه 74:
۷ ادامه..؟
GPT (Generative Pre-trained Transformer) ©
GPT - مدل زبان مبتنی بر ترانسفورمر است که برای پیش بینی کلمه بعدی در یک دنباله. آموزش داده شده است.
-اطلاعات متي را می گرد وحتی منسجم و حرتیط با موضوع تولید می کنده
- مدلهای 3۳۲ GPT-3 ,GPT-2 ants در تولید متنهای انسانماتند تأثيركذار بودهاند و برای کارهای مختلف .الا بهخویی تنظیم شدهند.
ELMO (Embeddings from Language Models) ۶
- 1-۷0 یک مدل نمایشی کلمه عمیق متنی است که بر اساس کل متن جمله. جاسازی های کلمه را ایجاد می کند.
- معاني لفات حساس درستنی که فلاهر شدهه را دریاقت می کند.
- مدل های 140.] از قبل آموزش دیده موجود است و در کارهای مختلف "لا استفاده شده است.
صفحه 75:
۷ ادامه..؟
. مدل هاى مبتنى بر ترانسفورمر(به عنوان مثال. 82151 الل .508118 ۲5۰)
- چندین مدل مبتنى بر ترانسفورمر وجود دارد كه بر روى مجموعه داده هاى بزرك مقياس از قبل آموزش ديده لند و به نیج بيشرفته اى در كارهاى
ge cus NLP يايند
ALBERT , 15. ROBERTa - نمونه هلیی از مدل های مبتنی بر ترانسفورمر هستند که به طور گسترده مورد استفاده قرار گرفته لند و می توان
آنها را برای وظیفه های خاص تنظیم کرد.
این مدل های از پیش آموزش دیده با ارائه ویژگی قدرتمندی از زبان. زمینه "!| را به طور قابل توجهی ارتقا داده اند. آنها اطلاعات متنی؛ روابط
معنایی و ساختارهای نحوی را جمع آوری می کنند و مدل ها را قادر می سازند تا در طیف وسیعی از کارهای ۳.أل] به عملکرد بالایی دست يابند.
بسیاری از این مدلهای از پیش آموزشدیدهشده در کتابخانههای معروف یادگیری عمیسق مانند کتابخانه ۴۵6۵5 Hugging
5 موجود هستند. که ادغام آسان آنها در پایپ لاين و برنامههای "الا را تسهیل میکند.
صفحه 76:
۸ مفهوم توجه در یادگیری عمیق چیست؟
مفهوم توجه در يادكيرى عميق به مكانيزمى اشاره دارد كه به يك مدل اجازه مى دهد در حین انجام یک کار بر روی بخش های خاصی از داده های
ورودی تمرکز کند.مکانیزمهای توجه به طور گسترده در حوزههای مختلف. از جمله پردازش زیان طبیمی (۳» بینایی کاپیوتری و مدلسازی
دنبلله به دنبلله استفاده شدهاند. ايده کلیدی پشت توجه, تخصیص وزن ها یا اهمیت های مختلف به بخش های مختلف ورودی است که مدل را قادر
می سازد تا به طور انتخابی به مرتبط ترین اطلاعات توجه کند.
در اینجا مروری بر نحوه عملکرد مکانیزم توجه می کنیم
1ازمينه و برس و و
- مکانیزم های توجه شامل یک موضوع و برس و جوهليى است. موضوع به داده هاى ورودی یا مجموعه ای از ویژگی ها اشاره دارد. در حللى كه يرس و
جوها اطلاعاتى را نشان مى دهند كه مدل به آن علاقه دارد يا مى خواهد روى آن تمركز کند.
۲ وزن توجه:
- مکانیزمهای توجه, وزنهای توجه را محاسبه میکنند که نشاندهنده ارتباط یا اهمیت بخشهای مختلف موضوع به پرسشها است.
- ين وزن ها معمولا بر اسابس معيار شباعت بين يرس و جوها و عناصر مخظف موضوع مجلسبة مى شوند.
صفحه 77:
۸ دامه..؟
وزنی:
- وزن توجه برای ایجاد ترکیب وزنی از عناصر موضوع استفاده می شود که به بخش های مرتبط تر وزن بیشتری می بخشد.
- ترکیب وزنی نشان دهنده نمایش حضوری یا متمرکز از موضوع است که بر مرتبط ترین اطلاعات تأکید دارد
۴ انواع مکانیزم توجه:
انيزم هاى توجه متفاوتی را می توان بر اساس وظیفه و معماری خاص استفاده کرد.
- یکی از انواع محبوب .خود توجه یا درون توجه نام دارده که در آن پرس و جوهاء کلیدها و مقادیر از یک دنباله ورودی مشتق می شوند و به مدل اجازه
می دهد تا به بخش های مختلف ورودی در مراحل زمانی مختلف توجه کند.
- نوع دیگری, توجه چند سر نامیده مى شود که شامل چندین عملیات توجه موازی است و مدل را قادر می سازد تا به جنبه ها يا ویژگی های مختلف
ورودی به طور همزمان توجه کند.
صفحه 78:
۸ دامه..؟
مزایای توجه در یادگیری عمیق عبارتد از
۱. تمرکز انتخلیی: مکانیزمهای توجه به مدلها لین امکان را میدهند که به طور انتخابی بر مرتبطترین اطلاعات تمرکز کنند و در عین حال بخشهای
نامربوط يا نويز ورودى را ناديده بكيرند يا كم اهميت جلوه دهند. اين کار می تواند منجر به عملکرد بهتر و پردازش کارآمدتر شود.
۲ تفسیرپذیری:مکانیزمهای توجه با برجسته کردن بخشهایی از ورودی که بیشترین سهم را در تصمیمگیری یا خروجی مدل دارند.قابلیت تفسیر را
فراهم میکنند. اي کار به درک و توضیح فرآیند استدلال و تصمیم گیری مدل کمک می کند.
۲مدیریت دنبالههای طولانی: در کارهایی که شامل دنبالههای طولائی است. مکانیزمهای توجه به مدل کمک میکنند تا وابستگیهای دوربرد را با توجه
به عناصر موضوع مرتبطء حتی اگر در دنباله از هم دور باشند. بهطور موثری جذب کند.
مكانيزم هاى توجه با موفقیت در معماریهای یادگیری عمیق مختلف. مانند مدلهای ترانسفورمر در 8-الاأ. مدلهاى شرح تصوير در بيثليى كامبيوتر. و
مدلهای دنبلله به دنبلله در ترجمه ماشینی به کار گرفته شدهاند. آنها عملکرد و قابلیت تفسیر لین مدل ها را بسیار بهیود بخشیده لند و آنها را قادر می
سازند تا کارهای پیچیده را انجام دهند و اطلاعات مهم را از ورودی های در مقیاس بزرگ دریافت کنند.
صفحه 79:
مکانیزم توجه چگونه به بهبود عملکرد مدل های دنباله به دنباله کمک می کند؟
مکانیزم توجه نقش مهمی در بهبود عملکرد مدلهای دنبلله به دنبلله, به ویّه در کارهایی مانند ترجمه ماشینی, خلاصهسازی متن و تشخیص گفتار
دارد. در اینجا نحوه کمک به افزایش عملکرد مدلهای دنباله به دناله آمده است:
۱ مدیریت ورودی ها و خروجی های با طول متفیر
- هدف مدلهای دنباله به دنباله تبدیل یک دنباله ورودی به یک دنباله خروجی با طولهای متفیر است.
- مکانیزم توجه به مدل اجازه می دهد تا در حین تولید دنباله خروجی مربوطه. روی قسمت های مختلف دنباله ورودی تمرکز کند.
- اين مكانيزم مدل را قادر مى سازد تا ورودی ها و خروجی های با طول متفیر را به طور موثرتری مدیریت کند
۲درک وابستگی های دوربرد:
انيزم هاى توجه به مدل كمك مى كند تا وابستكى ها دوربرد بين دنباله هاى ورودى و خروجى را درک کند.
با توجه به بخشهای مربوطه از دنبله ورودى در هر مرحله از فآیند رمزگشایی, مدل میتولد اطلاعات را از موقعیتهای دور در نظر گرفته و ترکیب
کند.
- اين مکانیزم به تولید دنباله خروجی دقیق تر و مرتبط تر کمک می کند.
صفحه 80:
٩ ادامه...؟
۳ کاهش فشرده سازی اطلاعات:
- مدلهای سنتی دنباله به دنباله بر یک بردار با طول ثابت (حالت پنهان رمزگذار) برای نشان دادن کل دنباله ورودی تکیه میکنند.
- مکالیزم توجه به مدل اجازه می دهد تا به اطلاعات از تمام موقعیت های دنباله ورودی دسترسی پیدا کند و آنها را ترکیب کند و نیاز به فشرده سازی
بیش از حد اطلاعات را کاهش دهد.
- به جاى تكيه صرفا بر يك ويزكى با طول ثابت مدل مى تواند به طور نتخابی به بخش های مختلف دنباله ورودی بر اساس ارتباط آنها با مرحله
رمزگشایی فعلی توچه BS
۴. تمرکز بر موضوع مرتبط:
-مکالزم های توجه به مدل کمک می کند تا بر مرتبط ترین قسمت های دنباله ورودى براى توليد هر عنصر از دنباله خروجى تمركز كند.
با اختصاص وزنهای توجهبالاتریه موقعیتهای ورودی مرتبط, مدل میتواند به طور موثراطلاعات و زمینه لازمبرای تولید عنصر خروجی بعدی را
استخراج کند.
- این نموکز اننخابی» کلی دنباله های تولید شده را بهبود می بخشد و توانایی مدل را برای درک جزئیات دقیق افزایش می دهد.
صفحه 81:
٩ ادامه...؟
۵ رسیدگی به هام و تولید خارج از دستور:
- در کارهامی مانند ترجمه ماشیتی, چندین ترجمه معتبر برای یک جمله ورودی ناده شده وجود دارد.
- مکانیزم توجه به مدل اجازه می دهد تا بخش های مختلف دنبلله ورودی را در نظر گرفته و وزن کند و به آن کمک می کند تا ابهامات را مدیریت
کند و در طول فرآیندرمزگشایی تصمیمات آگاهان بگرد
- همچنین مدل را قادر می سازد تا دنبلله خروجی رابه صورت غیر خطی و خارج از نظم تولید کند و کلمات تولید شده رابا مرتبط ترین قسمت های
ورودی تراز کند.
به طور کلی مکانیزمهای توجه در مدلهای دنله به دنله به طور قابل توجهى توائليى آنها را براى رسيدكى .به ورودیها و خروجیهای با طول متفیر.
درک وابستگیهای دوربرد,تمرکز بر موضوع مرتبط. رسیدگی بهابهام. و تولیددنالههای با کیفیت بل هبودمیبخشد. لین پیشرفتها منجربه عملکرد
بهتر, بهبود دقت ترجمه» و دنبالههای خروجی روانتر و مناسبتر میشوند.
صفحه 82:
۰ مفهوم نرمال سازی دسته ای چیست؟
نرمال سازی دسته ای تکنیکی است که در شبکه های عصبی عمیق برای بهبود فرآیند آموزش و عملکرد کلی مدل استفاده می شود. این عمل به
موضوع اثر شيفت توزيع داخلى مى بردازد. كه به تغيير در توزيع فعال سازى شبكه اشاره دارد زيرا بارامترهاى لايه هاى قبلى در طول آموزش به روز
مى شوند. مفهوم نرمالسازى دستهاى شامل نرمال سازى ورودىهاى هر لايه با تنظيم و مقياسبندى فعالسازىها با استفاده از آمار محاسيدشده بر
روى يك دسته كوجك از نموندهاى آموزشى است.
ترمال سازى دسته اى جكونه كار مى كند:
۱.آمار دسته های کوچک:
- در طول آموزش, نرمال سازی دسته ای ميانكين و واريانس فعال سازی ها را در یک مجموعه کوچک از نمونه های آموزشی محاسبه می کند
- برای هر فعال سازی میانگین و واریانس در ابعاد کوچک دسته ای محاسبه می شود.
۲ نرمال سازی:
- نرمال سازى دسته اى با كم كردن ميانكين و تقسيم بر انحراف استاندارد. فعال سازی ها را نرمال می کند
- اين عمل توزيع فعال سازى ها را حول صفر متمركز مى كند و آنها را برى داشتن واريانس واحد مقياس بندى مى كند.
صفحه 83:
Fe ادامه..؟
۳ پارامترهای قبل یادگیری:
- نرمال سازی دسته ای دو بارامتر قابل يادكيرى. اما (6۷ و بتا (3) را برای هر فعال سازی معرفی می کند
- اين يارامترها به مدل اين امكان را مى دهند كه مقياس بندى و جابجايى بهينه فعال سازى هاى نرمال شده
- مقادير كاما و بتا در طول آموزش از طریق پس انتشارآموخته می شود.
؟: كاريرد در طول آموزش و استنتاج:
- در طول آموزش: نرمال سازى دسته اى بر روى دسته هاى كوجك داده عمل مى كند و فعال سازى ها را بر اساس آمار محاسبه شده در هر دسته
عوجت نرمال سى كنقد
- در طول استنياط يا ارزيابى: از آمار ميائكين و واريانس آموخته شده يراى نرمال سازى فعال سازى ها استفاده مى شود.
صفحه 84:
Fe ادامه..؟
مزایای نرمال سازی دسته ای عبارتند از
| بهبود سرعت و ثبات آموزش:
- با نرمال سازى فعال سازى هاء نرمال سازى دسته اى. اثر شیفت توزيع داخلی را کاهش می دهد که می توند روند آموزش را تثبیت و سرعت بخشد.
- این امکان را به شبکه می دهد که با ارائهتوزیع منسجم تری از ورودی ها در هر لایه. سریعتر همگرا شود.
۲ کاهش حساسیت dy مقداردهی اولیه:
- نرمال سازی دسته ای وابستگی شبکه به مقداردهی اولیه پرمترها را کاهش می دهد.
ها را کاهش می دهد و به شبکه اجازه می دهد تا حساسیت کمتری نسبت به انتخاب های اولیه وزن داشته باشد.
- ترمال سازى دسته اى با ضافه کردن نویز به شبکه از طریق آمار دسته ای کوچک, یک اثر تنظیم جزئی ایجاد می کند.
این عمل می تواند بیش برازش را کاهش دهد و توانایی تعمیم مدل را بهبود بخشد.
نرمال سازی دسته ای به یک جزء استاندرد در بسیاری از معماری های یادگیری عمیق تبدیل شده است. از جمله شبکه های غصبی کانولوشن (6۱۷۱1» شبکه های
عصبی بازگشتی (30181» , شبکه های تمام متصل. این نرمال سازی, پیشرفت های قلبل توجهی را در سرعت آموزش, ثبات و تعمیم نشان دادم است ون رابه یک
تکنیک ضروری در شیوه های یادگیری عمیق مدرن تبدیل کرده است.
صفحه 85:
۱ نرمال سازی دسته ای چگونه به آموزش مدل های یادگیری عمیق کمک می کند؟
تومال سازی دسته ای یه چندین روش بهآموزش مدل های یدگیری عمیق کمک می کند
١ آثر شيغت توزيع داخلى را كاهش مى دعد:
- اثر شيفت توزيع داخلى به تغيير در توزيع فعال سازى شبكه اشاره دارد زيرا بارامترهاى لايه هاى قبلى در طول آموزش به روز مى شوند.
- ترمال سازی دسته ای لین مشکل رابانرمال سازی فعال سازی ها برطرف می کند و اطمینان حاصل می کند که میانگین و وارانس واحد آنها صفر
است
- اين نرمال سازى تاثير تغيير توزيع ها را كاهش مى دهد و به تثبيت روند آموزش كمك مى كند.
'. نرخ هاى يادكيرى بالاتر را تسهيل مى كند:
- با نرمال سازی دسته ای, فعال سازى ها رمال شده و حول محور صفر با واريانس واحد متمركز مى شوند.
- اين نرمال سازى جشم انداز يهينه سازى را مطلوب تر مى كند و امكان استفاده از نرخ يادكيرى بالاتر را فراهم مى كند.
- نرخ يادكيرى بالائر. همكرابى سريعتر و كاوش بهتر در فضای پارامتری مدل را امكان يذير مى كند.
صفحه 86:
۱ دامه...؟
۲. وابستگی به وزن اولیه را کاهش می دهد:
- نرمال سازی دسته ای وابستگی شبکه به مقداردهی اولیهپارامترها را کاهش مى دهد.
- به کاهش مشکل محو یا انقجار گرادیان هایی که می تواند در طول آموزش رخ دهد کمک می AS
- با نومال سازی دسته ای گرادیان ها بهتر کنتول می شوند. که باعث می شود مدل نسبت به انتخاب های اولیه وزن کمتر حساس باشد.
یه منطم سازی کمک می کنده
- ترمال سازی دسته ای یک اثر منظم سازی جزئی به شبکه اضافه می کند.
- از طریق آمار دسته ای کوچک که برای نرمال سازی استفاده می شود. نوبز را به شبکه معرفی می کند.
- این نویز به کاهش بیش برازش و بهسود قابلیت تعمیم مدل کمک می کند.
صفحه 87:
۱ دامه...؟
ف جسم اتداز بهيئة سازى را هموار فى كنت
- نرمال سازی دسته ای. چشم انداز بهينه سازى را در طول آموزش هموارتر و سازكارتر مى كند.
- با كاهش اثر شيفت توزیع داخلی , تغييرات كراديان در لايهها را كاهش مىدهد كه منجر به قرآيند بهينهسازى بايدارتر مى شود.
- اين اثر هموارسازى باعث مى شود كه مدل سريعتر و قابل اطمينان تر همكرا شود.
عد عدم تغيير شبكه را ارائه مى دهد:
- نرمال سازى دسته اى .درجه اى از تغييريذيرى را نسبت به تغييرات كوجك در توزيع ورودى فراهم مى كند.
-اين تغيير نابذيرئ به بهبود تعميع مدل کمک می کند و آن را در برابر تغييرات در داده هاى ورودى عقاوم تر مى كند.
به طور کلی, نرمال سازی دسته اى به طور قلبل توجهى آموزش مدل هاى يادكيرى عميق رابا كاهش لثر شيفت توزيع داخلى ٠ تثبيت فرآيند آموزش».
تسهیل استفاده از نرخ هاى يادكيرى بالاتر. كاهش وابستكى به مقداراولیه وزن, ارلئه منظم سازى. و اطمينان از عدم تغيير شبكه. يهبود مى بخشد. اين
عمل به يك تكنيك اساسى در معمارى هاى مدرن يادكيرى عميق تبديل شده است و نقش مهمى در دستيابى به همكرايى سريع تر تعمیم بهتر و
بهبود عملکرد کلی ایفا می کند.
صفحه 88:
۳۲ مفهوم بیش برازش <9 6۲16110 0۷)در یادگیری عمیق را توضیح دهید.
بیش برازش یک چللش رلیج در یادگیری عمیق وبه طورکلی یادگیری ماشین است. زملنى اتفاق مىافتد كه يك مدل بر روى دادههاى آموزشى عملكرد فوقالعادداى
داشته باشد اما توت به خیبی يه داخمهاى جديد ووديده تخده تعميم يايد به مبارت ديكر مدل بيش از جد خاص مى شود وبه جلى يلدكيرى الكوهلى على تكه م
تواند روى داذة هاى ديده نشده اعمال شود. تمونههای آموزشی را به خاطر مى سبارد. اين بديده به نام بيش برازش(01/©]166109) شناخته مى شود
در اينجا ويزكى ها و دلايل كليدى بيش برازش آورده شده است:
.١ دقت آموزش بالاه دقت آزمون پایب
یک مدل بيش برازش. دقت آموزش به طور معمول بالااست. كه نشان مى دهد كه مدل ياد گرفته است که داده های آموزشی را به خوبی برازش دهد.
با لین حال. هنگامی که بر روی داده های جدید (آزمون یا مجموعه اعتبارسنجی) ارزیابی می شود. عملکرد مدل به طور قلبل توجهی کاهش می یلبد و در نتیجه دقت
آزمون يابين |.
:مدل بيش أز حد بيجيده:
بيش برازش اغلب زماتى اتفاق مى افتد كه مدل نسبت به داده هاى آموزشى موجود بیش از حد پیچیده باشد.
مدل هاى يادكيرى عميق با تعداد يارامترهاى زياد. مانند تعداد لایه ها يا گره های زیده بیشتر مستعد بیش برازش هستند.
صفحه 89:
۲ ادامد... .
۳ داده های آموزشی ناکافی:
- وقتی مجموعه داده آموزشی کوچک یا فاقد تنوع باشد. احتمال بیشتری وجود دارد که بیش برازش SUSI بیفتد.
- داده های محدود ممکن است به اندازه کافی الگوها و تغییرات اساسی در جمعیت هدف را نشان ندهند. و مدل رابه تفسیر بیش از حد نویز یا ویژگی
های نامریوط سوق دهد.
؟ ee ری رت
- اگر مجموعه داده آموزشی حاوی نمونه های نوبز یا پرت باشد. يك مدل بيش برازش ممكن است ياد بكيرد که بیش از حد روی لین نمونه های خاص
تمركز كند.
- مدل نسبت به نمونه هاى واحد. بيش از حد حساس مى شود و نمى تواند به خوبى به نمونه هاى مشابه اما دب
۵. عدم منظم سازی
- تکنیک های منظم سازی ناکافی یا تنظیم هايبربارامتر ناكافى مى تواند به بيش برازش كمك كند.
- روشهاى منظمسازى مانند حذف تصادفى. كاهش وزنء يا توقف زودهنكام با اعمال محدوديتهايى بر ظرفيت مدل و كنترل بيجيدكى لن: به
ee ee
صفحه 90:
۲ ادامه.
براى رسيدكى به بيش برازش و بهبود تعميم مدالء اسرنزیهای ویر را می تون به کر کرت
الفزايش داده على أموزشى:
- به دست أوردن دلددهاى أموزشى متنوعتر و معرفتر مى توئد به مدل كمك كند تا طيف وسبع ترى از الكوها ا جذب كند و بیش برزش را کاهش دهد
تیک های منم سازی:
- تكنيك هابى مانند حذف تصادفى. تنظيم 11 با 12 و ده il go یجدمحدودیت ها و شاه کردن نز هرید یلیر باهش بیش بازش کمک کند
+ ساده سای مدل؛
- كلهش بيجيدكى عدل: مافند كلمش تعدا يدها يا كرمعء متو به مبارزه با بيش رارش كمكك كند.
- مدل هاى ساده تر كمتر تويزيا جزئيات تامربوط را يه خاطر مى سبارند و بهتر مى تونند تعميم دهند.
*امتبازستجى متا
- لستفاده از تكنيك على اعتارسنجى متقابل: مامت امتبارستجى متقيل 001-. امكان ارزيلى قوى تر از عملكرد مدل را فراهم مى كند و به تشخیس بیش برزش کمک می ند
ال توقف زودهدكام:
انظارت بر عملكرد مدل بر روى يك مجموعه امتبار سنجى در طول أموش و توقف فرايند أموزش هدكامى كه عملكرد شروع به بدتر شدن مى كند مى تواند ا( بيش براش جلوكيرى كند
بیش برازش جالش رایع در بدگری عمیق استه ما سترازهاي ناسب مان اه یی لستفادة از تكنيكنعاى منظلم سازى: سافتساز مذل. و استفادة از روش هاي ارزيفي متاسنيد ميتوان آن را كاسكل seat JES
ss hale iabicataign gaa ado stie
صفحه 91:
۳ چند تکنیک برای رفع بیش برازش در مدل های یادگیری عمیق را نام ببرید.
بیش برازش یک چالش رایج در مدلهای یادگیری عمیق است. اما چندین تکنیک میتوند به رفع و کاهش لّن کمک کند. در اینجا چند تکنیک
متداول برای مبازه با بیش برازش استفاده می شود:
افزایش داده های آموزشی:
- یکی از رویکردهای موثر برای کاهش بیش برازش ۰ جمع آوری داده های آموزشی بیشتر در صورت امکان
- مجموعه دادهای بزرگتر و متنوعتر. طيف وسيعترى از مثالها را در اختيار مدل قرارمیدهد و به تعميم بهتر دادههاى ديده نشده كمك مىكند.
۲ داده افزایی
- داده افزایی شامل گسترش مصنوعی مجموعه داده های آموزشی با اعمال تفییرات یا اصلاحات مختلف در داده های موجود است.
- برای منال, در کارهای طبقهبندی تصویره تکنیکهلیی مانند برش تصادفی. چر
بيش برازش ود
ش. بركرداندن يا اضافه كردن نويز مى تولند باعث ایجاد تنوع و كاهش
صفحه 92:
۳ ادامه.. .
۲ تکنیک های منظم سازی:
- روشهای منظمسازی .محدودیتهلیی را بر پارامترهای مدل تحمیل میکنند تا از پیچیده شدن بیش از حد لّن و بیش برازش دادههای آموزشی جلوگیری
کنند,
- دو تکنیک منظم سازی متداول عبارتند از تنظيم .| و 12
- منظم سازی 1] (منظمسازی 3550 به تابع زیان متناسب یا مقدار مطلق پارامترها یک عبارت جریمه اضافه می کند.
- منظم سازی 2] (منظمسازی 06| ) یک جریمه متناسب با مجذور پارامتیها اضافه می کند.
- این تکنیکهای منظمسازی مدل را تشویق میکند تا وزنهای کوچکتر و متعادلتری داشته ياشد و از تکیه شدید آن به چند ویژگی جلوگیری میکند
۴ حذف تصادفی
- حذف تصادفی یک تکنیک منظم سازی است که در آن نورون ها یا اتصالات به طور تصادفی انتخاب شده. نادیده گرفته می شهند یا در حین آموزش "قطع
می شوند"
- این عمل به جلوگیری از سازگاری مشترک نورون ها کمک می کند و شبکه را تشویق می کند تا ویژگی های قوی و قابل تعمیم بیشتری را بیاموزد.
- حذف تصادفی را می توان بر روی لایه های مختلف مدل اعمال کرد و به طور موثیی بیش برازش را کاهش داد و تعمیم را بهبود بخشید.
صفحه 93:
۳ ادامه.. .
۵. توقف زودهنگام:
- توقف زودهنگام شامل نظارت بر عملکرد مدل بر روی یک مجموعه اعتبر سنجی در طول آموزش و توفف فرآیند آموزش زمانی است که عملکرد
وع به بذتر شدن می کند.
- با يافتن نقطه بهينه اى كه مدل به اندازه كافى بدون بهينه سازى بيش از حد بر روى داده هاى آموزشى. از بيش برازش مدل جلوئيرى مى كند.
۶ ساده سازى مدل:
- مدل هاى ييجيده با تعداد بارامترهاى زياد بيشتر مستعد بيش برازش هستند.
- ساده سازی مدل با کاهش عمق, عرض يا بيجيدكى آن مى تواند به كاهش بيش برازش كمك كند.
- اين عمل مى تواند شامل كاهش تعداد لايه هاء كاهش تعداد نورون ها در هر لايه يا حتى تغيير به معمارى مدل ساده تر باشد.
صفحه 94:
۳ ادامه.. .
۲ روش های جممی:
- روشرهاى et ee TS eee كندد
- با آموزش چندین مدل با مقدار دهی اولیه یا استفاده از معماری های مختلف روش های جمعی می توانند به کاهش بیش برازش و بهبود تعمیم
کمک کنند.
- روشهای متداول جمعی شامل 800511۳9 ,88991۳9 و 51261109 است.
۸ اعتبارسنجی متقابل:
- تکنیکهای اعتبارسنجی متقابل» مانند اعتبارسنجی متقابل ۰-۴۵10 به ارزیایی قویتر عملکرد مدل و تشخیص بیش برازش کمک میکنند.
- با تقسیم داده ها به چند بخش و انجام چرخه های آموزشی و ارزیابی متعدد. اعتبارسنجی متقابل. تخمین قابل اعتمادتری از عملکرد تعمیم مدل ارائه
می دهد.
این تکنیکها را میتوان بهصورت جداگانه یا ترکیبی برای رفع بیشبرازش در مدلهای یادگیری عمیق مورد استفاده قرار داد. انتخاب تكنيك ها به
مسئله خاص, مجموعه داده ها و معماری مدل بستگی دارد و اغلب برای یافتن بهترین رویکرد نیاز به آزمایش و تنظیم دقیق دارد.
صفحه 95:
۴ مفهوم منظم سازی چیست؟
منظم سازی تکنیکی است که در یادگیری ماشینی, از جمله یادگیری عمیق. برای جلوگیری از بیش برازش و بهبود توایی تعمیم مدل ها استفاده می
og هدف منظم سازی یافتن تعادلی بین برازش داده های آموزشی و اجتناب از پیچیدگی بیش از حد در مدل آموخته شده است.
مفهوم منظم سازی شامل اضافه کردن بیک اصطلاح منظم سازی بهتلبع زیان در طول فرآیند آموزش است. لین عبارت اضلفی؛ مدل را تشویق میکند.قا
ویژگیهای مطلوب خاصی مانند وزنهای کوچکتر یا پرانندگی داشته باشد. که به جلوگیری از بیش برازش کمک میکند.
دو روش متداول منظمسازی عبارتند از: منظمسازی 11 (منظمسازی 12550) و منظمسازی ضا (منظمسازی 21096 :
۱. منظمسازی 1] (منظمسازی 12550)
- منظمسازی 1-1 یک عبارت جریمه به تبع زیان اضافه می کند که متناسب با قدر مطلق وزن های مدل است.
- این جریمه مدل را تشویق می کند که وزن های کم داشته باشد. به این معنی که بسیاری از وزن ها دقيقاً صفر می شوند.
- منظمسازی 1-] دارای خصیصه انتخاب ویژگی است. زیرامی توند به طور موثر ویژگی های نامربوط یا کمتر مهم را از مدل حذف کند.
صفحه 96:
۴ ادامه..؟
۲ منظمسازی | (متظمسازی 5۱096)
- منظمسازی 2] یک عبارت جریمه به تبع زیان اضافه می کند که متناسب با مجذور وزن های مدل است.
- این جریمه مدل را تشویق میکند بهجای حذف کامل وزنهای خاص. وزنهای کوچکتری در تمام پارامترهاداشته باشد.
- منظمسازی ]| منجر به کاهش وزن می شود زیرا وزن ها را به صفر نزدیک می کند اما به ندرت دقیقاً به صفر می رسد.
اصطلاح منظمسازی معمولاً توسط یک هایپرپاامتربه ام پاامتر تنظیم یا قدرت تنظیم کنترل می شود. انتخاب این پارامتر میزان منظم سازی اعمال
شده در طول آموزش را تعیین می کند. مقادیر الاترپارامتر منظمسازی منجر به منظمسازی قویتر میشود که منجر به تأکید بیشتر بر سادگی و
بيش برازش كمتر مىشود. اما به طور بالقوه برخى از ظرفيت مدل را قربانى مىكند تا به خوبى دادههاى آموزشى را تطبيق دهد.
تكنيكهاى منظمسازى. مانند منظمسازى L2 gL] با افزودن محدودیتهایی به فرآیند یادگیری به جلوگیری از بیش برازش کمک میکنند. با
منصرف کردن مدل از اتکای بیش از حد به ویژگی های واحد یا داشتن وزن های بیش از حد بزرگ, منظم سازی مدل را تشویق می کند تا الگوهای
قوی تر و قابل تعمیم بیشتری بیاموزد. هدف ن ایجادتعادل بین درک الگوهای مرتبط از داده های آموزشی و جلوگیری از تفسیر بیش از حد نویز یا
ویژگی های نامربوط است.
مظم سازی یک تکنیک اناسی در بادگیری ماشینی است و اصول لن فرلتر از منظم سازی 1و مأانت. تکنیکهای دیگر منظمسازی, مانتد حذف
تصادفى: نرمالسازى دستهاى و توقف زودهنكام نيز به طور كسترده در يادكيرى عميق براى بهبود تعميم مدل و مبارزه با بیشبرازش استفادهمیشوند
صفحه 97:
۵ تفاوت های بین منظم سازی 11و 2را توضیح دهید.
منظمسازی 1و منظمسازی 12 دو تکنیک رایج برای منظمسازی در یادگیری ماشیتی از جمله یادگیری عمیق هستند. در حالی که هدف هر دو
جلوكيرى از بيش برازش و يهبود تعميم مدل الست ويزكى ها و اثرات متمايزى بر مدل دارند. در ینجا تفاوت هاى اصلى بين منظم سازى 1-| و 12
وجود دارد:
.١ محاسبه جريمه:
- منظوسازى 1-| جريمه اى به تابع زيان اضافه مى كند كه متناسب با مجموع مقادیر مطلق وزن های مدل است.
- منظمسازی 2] جریمه ای اضافه می کند که متتاسب با مجموع مجذور وزن های مدل است.
۲ تأثیر بر وزن ها
- متظمسازی 1 با هدايت كردن بسيارى از وزن ها به طور دقيق به صفر. براكندكى را تشويق مى كند.
- منظمسازى 2] وزنهاى كوجكتر رأ در تمام پرمترها افزایش میدهد اما به ندرت آنها را دقیقاً صفر میکند.
۳ انتخاب ویژگی:
- منظمسازی 1.1 دارای خاصیت انتخاب ویژگی است. تمایل دارد ویژگیهای نامربوط یا کماهمیت را با صفر کردن وزنهای متتاظر آنها حذف کند.
منظمسازی 12 انتخلبء مشخصی از ویاگی ها را انجام نمی دهد. زبرا همه ویزگی ها را حفط می کند اما بزرگی آنها وا کاهش می دهد.
صفحه 98:
. ادامه... FO
۴ فضای راه حل:
- فضلى ره بحل منظم سارى 1-1 كم استه بسی تساه وزن على غير صقر كمترى دارد لين قضيه عى تولند هنگام برخوره با مجموحه داده های با اساد
الا با بسیاری از ویژگی های نامربوط مفيد باشد.
- فضای راه حل منظم سازی 2] متراکم است و وزن های غیر صفر به طور مساوی در بین ویژگی ها توزیع شده است.
۵ تفسیر پذیری:
- منظمسازی 1-1 مىتولند به مدل قلبل تفسيرترى منجر شود. زيرا تمليل دارد زیرمجموعهای از ویژگیها را انتخاب کند و وزنهای غیر صفر را فقط به
lad ln Fey اختصاص دهد
- منظمسازی 12 ممکن است یک مدل کمتر قابل تفسیر ایجاد کند زیرا همه ویژگی ها را حفظ می کند اما بزرگی آنها را کاهش می دهد.
مقاومت در برابر موارد يربته
- منظمسازی 11 عموماً نسبت به دادههای پرت مقاوم تر است. نقاط پرت به دلیل ماهیت پراکندگی منظمسازی 1] تأثیر کمتری بر مدل دارند.
- منظمسازی LZ نسبت به موارد پرت مقاومت کمتری دارد. زیرا خطای مربع را به حداقل می رساند. که وزن بیشتری به خطاهای بزرگ می دهد.
صفحه 99:
. ادامه... FO
گی:
- منظمسازی 1 پراکندگی و انتخاب ویژگی را معرفی میکند و مدل را فشردهتر و بالقوه سادهتر میکند.
- منظمسازی 2] وزن های کوچک را تشویق می کند اما هیچ وزن خاصی رابه طور کامل حذف نمی کند. تمليل دارد وزن ها رابه
eo
انتخاب بین منظم سازی 1و ابه مسئله خاص, مجموعه داده ها و ویژگی های مدل مورد نظر بستگی دارد. منظمسازی 11 اغلب زملنی ترجیح
داده می شود که نیاز به انتخاب ویژگی با تفسیرپذیری وجود داشته باشده یا زملنی که با داده های با ابعاد بالا سروکار داریم, منظمسازی 2 عموماً
رایچتر است و میتواند راهحلهای ملایمتر و پایدارتری ارائه دهد.
در عمل, ترکیبی از هر دو منظمسازی 1] و | که به عنوان منظم سازی شبکه الاستیک شناخته می شود می تولند برای بهره مندی از مزایای هر
دو تکنیک استفاده شود. منظمسازی شبکه الاستیک. خاصیت ایجاد پراکندگی منظمسازی 1 را با همواری و پایداری منظمسازی 2 ترکیب میکند.
صفحه 100:
۶ توقف زودهنگام در یادگیری عمیق چیست؟
توقف زودهنگام یک تکنیک منظم سازی است که معمولاً در یادگیری عمیق برای جلوگیری از بیش برازش و بهبود توائليى تعميم مدل ها استفاده مى شود. لين
عمل شامل نظارت بر عملکرد مدل در طول آموزش و توقف فرآیند آموزش زمانی است که عملکرد در یک مجموعه اعتبار سنجى شروع به بدتر شدن مى كند.
ایده اصلی پشت توقف زودهنگام این است که با ادامه آموزش مدلء در ابتدا عملکرد خود را هم در مجموعه آموزشی و هم در مجموعه اعتبار سنجی بهبود می
بخشد. با این حال, در برخی موارده مدل ممکن است شروع به بیش برازش دادههای آموزشی کند. که باعث کاهش عملکرد در مجموعه اعتبار سنجی میشود
در حالی که همچنان در مجموعه آموزشی بهیود مییابد. هدف توقف زودهنگام یافتن نقطه بهینه در آموزش است که در آن مدل به اندازه کافی بدون بیش
برازش یاد گرفته است.
فرایند توقف زودهنگام معملاً شامل مراحل زیر است:
۱. تقسیم داده ها
-مجموعه داده های موجود به سه مجموعه نقسیم می شوده مجموعه آموزشی مجموعه اعتبار ستجی و مجموعه آزمو:
- مجموعه آموزشی برای آموزش مدل, مجموعه اعتبارستجی برای نظارت بر عملکرد در حين آموزش و مجموعه أزمون براى ارزيابى نهابى استفاده مى شود.
۲ نظارت بر عملکرد:
- در طول فرآيند آموزش, عملکرد مدل به صورت دوره ای بر روی مجموعه اعتبارسنجی ارزیابی می شود
- معیار عملکردی که برای نظارت استفاده می شود بسته به مسئله می تواند دقت. زیان یا هر معیار مناسب دیگری باشد.
صفحه 101:
۶ ادامه.
۳ معیار توفف:
- یک معیار توقف بر اساس عملکرد در مجموعه اعتبار سنجی تعریف می شود
- معیارهای رایج مورد استفاده شامل عدم بهبود عملکرد اعتبارسنجی برای تعداد معینی از دوره های متوالی یا افزایش از دست دادن اعتبار سنجی فراتر
از یک آستانه خاص است.
۴ توقف زودهنگام:
- با رعایت معیار توقف. فرآیند آموزش متوقف می شود و پارامترهای مدل در آن نقطه. مدل نهایی محسوب می شوند.
- سپس مدل بر روی مجموعه آزمون ارزیابی می شود تا معیارهای عملکرد نهایی به دست آید.
با توقف فرآیند آموزش در نقطه عملکرد بهینه در مجموعه اعتبارسنجی, توقف زودهنگام به جلوگیری از بیش برازش کمک می کند و تضمین می کند
که مدل به خوبی به داده های دیده نشده تعمیم می یابد. هنگامی که عملکرد مدل در مجموعه اعتبارستجی شروع به کاهش میکند. از ادامه فرآیند
آموزشی اجتناب میکند. که میتواند منجر به بهینهسازی بیش از حد در دادههای آموزشی شود.
توقف زودهنگام یک تکنیک منظم و مفتر استءبه ویزه زملتی که در دسترس بردن داده های برچسب گناری شده برای آموزش مجدود ابت لين عمل
کمک می کند تا تعادل خوبی بین پیچیدگی و تعميم مدل بيدا كنيد. خطر بیش برازش و صرفه جوبی در متلبع محاسباتی رابا توقف زودهنگام فرآیند
آموزش زمانی که آموزش بیشتر متجر به بهیود عملکره مجموعه اعتبار سنجی نمی شود کاهش مي دهد.
صفحه 102:
۷ توقف زودهنگام چگونه می تواند به جلوگیری از بیش برازش کمک کند؟
توقف زودهنگام یک تکنیک منظم سازی است که سی تولند به جلوگیری از بیش برازش در مدل های یادگیری عمیق کمک کند. لین امر با نظارت بر
عملکرد مدل در یک مجموعه اعتبار سنجی در طول آموزش و توقف فرآیند آموزش هنگامی که عملکرد مجموعه اعتبار سنجی شروع به بدقر شدن می
sd به دست می آورد. در اینجا نحوه کار توقف زودهنگام برای جلوگیری از بیش برازش توضیح داده شده است:
۱ تشخیص بیش برازش:
توقف زودهنگام با ردیابی عملکرد مدل در یک مجموعه اعتبار سنجی جداگانه به تشخیص بیش برازش کمک می کند. همانطور که مدل به آموزش
ادامه می دهد؛ در ایتدا عملکرد خود را هم در مجموعه آموزشی و هم در مجموعه اعتبار سنجی بهبود می بخشد. با اين حال. در برخى مواقع. مدل
ممکن است شروع به بیش برازش دادههای آموزشی کند که منجر به کاهش عملکرد در مجموعه اعتبار سنجی و در عین حال بهیود در مجموعه
آموزشی میشود. توقف زودهنگام زمانی که عملکرد مدل در مجموعه اعتیارسنجی شروع به بدتر شدن می کند. این نقطه را مشخص می کند.
صفحه 103:
۷ دامه...؟
۲ یافتن دور(600>/0) آموزشی بهینه:
هدف از توقف زودهنگام یافتن نقطه بهینه در طول آموزش است که در آن مدل به اندازه کافی آموخته است که بدون بیش برازش به خوبی تعمیم دهد.
با توقف فرآیند آموزش زملنی که عملکرد مدل در مجموعه اعتبارسنجی شروع به کاهش میکند. توقف زودهنگام. از بهینهسازی بیش از حد مدل در
دادههای آموزشی جلوگیری میکند و آن را به نقطه تعمیم بهینه هدایت میکند
۳ جلوگیری از بهیته سازی بیش از حد:
ادامه 13
آموزش فرلتر از نقطه تعمیم بهینه می تولند منجربه بهینه سازی بیش از حد یا بیش برازش شود. که در آن مدل بیش از حد مختص به
داده های آموزشی می شود و نمی تولند به خوبی به داده های دیده نشده تعمیم یابد. توقف زودهنگام با متوقف کردن فرآیند آموزش در مراحل اولیه
زمانی که عملکرد مدل در مجموعه اعتبارسنجی نشان میدهد که آموزش بیشتر احتملاً منجر به بیش برازش میشوده از این امر جلوگیری میکند.
صفحه 104:
۷ دامه...؟
۴ تعادل پیچیدگی مدل:
توقف زودهنگام به یافتن تعادل بین پیچیدگی مدل و تعمیم کمک می کند. با متوقف کردن فرآیند آموزش قبل از رسیدن به نقطه پیچیدگی بیش از
حد که ممکن است منجر به بیش برازش شود از پیچیده شدن بیش از حد مدل یا پرامتری شدن پیش از حد آلن جلوگیری می کند. با توقف
زودهنگام. مدل مجبور می شود الگوهای اساسی در داده ها را بدون تطبیق بیش از حد با نویز يا نمونه های خاص ثبت کند.
به طور کلی؛ توقف زودهنگام یک تکنیک منظمسازی موثر است. زیرا به مدل اجازه میدهد تا زمانی که به نقطه تعمیم بهینه برسد. آموزش داده شود و
از تطبیق بیش از حد اجتناب کند. با نظارت بر عملکرد مدل در یک مجموعه اعتبارسنجی, توقف زودهنگام به ایجاد تعادل بین برازش دادههای آموزشی
و جلوگیری از پیچیدگی بیش از حد کمک میکند و در نهایت منجر به تعمیم بهتر و بهبود عملکرد در دادههای دیده نشده میشود.
صفحه 105:
۸ مفهوم هایپر پارامترها در بادگیری عمیق را توضیح دهید.
در يادكيرى عميق. هايبريارامترها بارامترهايى هستند كه قبل از فرآید آموزش تنظیم می شوند و رفا و ویژگی هی مدل را تعیین می کند. آنه از داده
ها ید نمی گیرنه بکه توسمط کاب با محقی تمریف مي شون. هیر پارامترها قش مهمی در شکل دادن جه مععاری»فرآرد آموزش و عملکره کلی یک مفل
یاد گیری عمیق دارند.
در ايتجا جند نمونه رايج از هايير بارامترها در یادگیری عميق آورده شده است:
١.ميؤان يادكيرى:
- نرخ يادكيرى اندازه كام را در هر تكرار الكوريتم بهينه سازى كنترل مى كند (به عنوان مثال» نزول كراديان)؛
- تعبين مى كند كه بارامترهاى مدل در طول آموزش چذدر نیم ده استه
- نرخ يادكيرى بالاقر ممكن است منجر به همگرایی سریعتر شود. اما همچنین می تولندباعث بی ثباتی شود و مدل را از يافتن راه حل بهينه باز دارد. نرخ.
ياذكيرى كمتر ممكن است متجر به همكراض كندتر شودء اما مى توائد آموزش بايدارترع را ارائه دهد:
۲ تعداد لایه ها
- تعداد لایه ها عمق شبکه عصبی را مشخص می کند.
افزلیش تعداد لایهها میتولند مدل را قادر به یادگیری نمایشهای پیچیدهتر کند. اما همچنین ممکن است خطر بیش برازش را افزلیش دهد ووبه دادههای
آموزشی بیشتری نیاز داشته باشد.
صفحه 106:
. دامه.. FA
۳ تعداد واحدها یا نورون ها در هر لایه:
- تعداد واحدها در هر لایه ظرفیت یا پیچیدگی مدل را تعیین می کند.
- واحدهای بيشتر به طور بالقوه مى توانند الكوهاى بيجيده ترى را درك كنند. اما ممكن است خطر بیش برازش را نیز افزایش دهند.
رات سل سرت
ee غير خطى بودن راايه مدال معرفى فى كتنقد
- توابع فمال سازى مختلف ويزكي عاى متفلوتى ذارنة و مى توانتد بر تواتابى مدل كر بادكيرى و تعميم تأثير بكطارنف
- توابع فعال سازی رایج عبارتتد از 86۱1 8۳۰ ,519۴0010 و 50۴۳8
۵ اندازه دسته:
- اندازه دسته. تعداد نمونه هلى آموزشى بردازش شده در یک گذر رو به جلو و عقب را در طول هر تكرار آموزش تعيين مى كند.
- اندازه دسته بزركتر ممكن است تخمين دقيق ترى از كراديان ارائه دهد اما به حافظه بيشترى نياز دارد.
اندازه دسته کوچکتر می تواند موارد تصادفى بيشترى را در فرآيند آموزش ايجاد كند.
صفحه 107:
. دامه.. FA
۶ پارمترهای منظم سازی:
- پارامترهای منظم سازی. مانند قدرت منظم سازی 1 یا 12ء میزان منظم سازی اعمال شده به مدل را کنترل می کنند.
- آنها به جلوكيرى از بيش برازش و بهبود توانايى تعميم مدل کمک می کنند.
نرخ حذف تصادفى
- حذف تصادفی یک تکنیک منظم سازی است که در آن تعدادی از نورون های تصادفی انتخاب شده به طور موقت در طول آموزش نادیده گرفته می
شوند.
نرج حذف تعادفى a لاية تعيين عي كنل
- نرخ Glo تصادفى بالاتر مى تواند توانايى مدل را براى تعميم افزايش دهد اما همجنين ممكن است ظرفيت آن را كاهش دهد.
صفحه 108:
. دامه.. FA
۸ الگوریتم بهینه سازی:
-الگوریتم بهینه سازی نحوه به روز رسانى بارامترهاى مدل را در طول آموزش تعيين مى كند.
- مثالهایی از این الگوریتم ها عبارتند از نزول گرادیان تصادفی (56510). ۴۷15۵۲00 ۸۵013۲0۰ و موارد دیگر.
اينها فقط جند نمونه از هايبربارامترها هستند و بسته يه مدل یا معماری خاص یادگیری عمیق که استفاده می شود. می تولند مورد دیگری نیز وجود
داشته باشد. یفتن مقادیربهینهبرای هایپرپاامتره غلب از طریق ترکیبی از آزملیش, آزمون و خطاء و تكنيك هاى تنظيم هايبربارامتر مانند جستجوى
شبکه ای یا جستجوی تصادفی انجام می شود.
انتخاب هايبربارامترها مى تولند به طور قليل توجهى بر عملكرد مدل. سرعت همگرلیی تانلیی تعمیم و کرلیی محاسبانی تأثیر بگذارد. برای دستیابی یه
بهترین عملکرد و اطمینان از آموزش و استقرارموفق مدل انتخاب دقیق و تنظیم دقیق هایبرپاامترها بسیار مهم است.
صفحه 109:
٩ برخی از هایپر پارامترهای تنظیم شده رایج در مدل های یادگیری عمیق کدامند؟
هنكام تنظيم هايبربارامترها در مدل هاى يادكيرى عميق. برخى از هايبربارامترهاى تنظيم شده معمول عبارتند از
الترخ يادكيرى:
- ترخ يادكيرى اندازه كام را براى به روز رسانى بارامترهاى مدل در طول بهينه سازى تعيين مى كند.
- به طورقلیل توجهی بر سرعت همگرایی و عملکرد مدل تأثیر می گذارد
-یافتن نرخ یادگیری مناسب برای آموزش موثر بسیار مهم است.
۲ اندازه دسته؛
- اندازه دسته به تعداد نمونه های آموزشی پردازش شده در هر تکرار آموزش اشاره دارد.
- بر سرعت همگرایی» استفاده از حافظه و توانابی تعمیم تأثیر می گذارد.
- اندازه های مختلف دسته می تواند نتایج متفاوتی به همراه داث
باشد و اغلب مهم است که تعادل بهینه را بيدا كنيد.
صفحه 110:
٩ ادامه.
۳ تعدد لاه ها و واحده:
= تعدادلیه ها و واحدها در هر ای معماری و ظرفیت مدل را مشخ می کند.
- تنظيم اين هايبربارامترها مى تواند ير توانايى مدل در يادكيرى الكوهاى بيجيده و توانايى تعميم آن تأثير بكذار
- لايه ها يا واحدهاى يسيار كم ممكن است منجر به كم برازش شوند. در حالى كه تعداد زياد ممكن است منجر به بيش برازش شود
alg ۴ قعال سازى.
- انتخاب توايع فمال سازى مى توللد بر توانابي مدل هر هراك روليط غير خطى, تالير يكنارده
- توابع فعال سازى رايج عبارتند از للاع8 .881 .5190010 و softmax
- انتخاب توابع فعال سازی مناسب برای لایه ها و کارهای مختلف ضروری است.
۵
منظم سازی:
-تکنیک های منم سازی, اند مظم سازی 1 یا 1.2 بهجلکیری از بیش بازش کبک می کند
برت منظم سازی, كه معمولاً توسط يك هايبريارامتر كنترل مى شود بر ميزان منظم سازى اعمال شده تأثير مى كذارد.
- تنظيم اين هايبربارامتر به يافتن تعادل مناسب بين بيجيدثى مدل و تعميم كمك مى كند.
صفحه 111:
٩ ادامه.
۶ نرخ حذف تصادفی:
- حذف تصادفی یک تکنیک منظم سازی است که در آن تعدادی از نورون های تصادفی انتخاب شده به طور موقت در طول آموزش نادی
Aes
- نرخ حذف تصادفی احتمال حذف هر نورون را در یک لایه تعیین می کند.
- تنظیم نوخ حذف تصادفی می تواند بر توانايى مدل بای تعمیم و جلوگیری از بیش برازش
¥ بهينه ساز و بارامترهاى آن:
- انتخاب الكوريتم بهينه سازى. مانند نزول گرادیان تصادفی Ce ps » ails 2 RMSprop L Adam (SGD) و همكرايى آموزش تاثير
بكذارد.
- هر بهينه ساز ممكن است هايبربارامترهاى خاصى براى تنظيم داشته باشد. مانند تكانه نرخ فروباشى يا نرخ يادكيرى تطبيقى.
صفحه 112:
٩ ادامه.
A پارمترهای توقف زودهتگام:
- توقف زودهنگام تکنیکی برای جلوگیری از بیش برازش با توقف آموزش در زمانی که عملکرد مدل در مجموعه اعتبارسنجی بدتر می شود
- پارامترهای خاص برای توقف زودهنگام. مانند صبر یا معیارهای تعیین کاهش عملکرد. قابل تنظیم هستند.
توجه به این نکته مهم است که انتخاب و تنظیم هایپرپارامترها می تواند مشکل خاصی باشد. علاوه بر لین, تکنیکهلیی مانند زمانبندی نرخ یادگیری»
روشهای مقداردهی اوليه وزن. و استراتزىهاى افزايش داده نيز بر عملكرد مدل تأثير مى كذارند و بايد در طول تنظيم هايبريارامتر در نظر گرفته شوند.
تنظیم هایپرپارامتر معمولاً یک فرآیند تکراری است که شامل آزمایش, ارزیلبی ترکیبهای مختلف و استفاده از تکنیکهایی مانند جستجوی شبکهای,
جستجوی تصادفی یا روشهای پیشرفتهتر منند بهینهسازی بیزی یا الگوریتمهای ژنتیک است. هدف یافتن ترکیبی بهینه از هايبربارامترها است كه
منجر به بهترین عملکرد و تعمیم مدل یادگیری عمیق برای یک وظیفه و مجموعه داده معین می شود.
صفحه 113:
۰ چگونه می توان تنظیم هایپرپارامتر را در یادگیری عمیق انجام داد؟
تنظيم هايبربارامتر در يادكيرى عميق شامل يافتن تركيب بهينه هايبربارامترها است كه منجر به بهترین عملکرد و تعمیم مدل مى شود. در إينجا جند
رويكرد و تكنيك متداول براى انجام تنظيم هايبربارامتر در يادكيرى عميق أورده شده است
1 تنم دستی:
- ساده ترين روش انتخاب دستی و تنظیم هایپرپارامترها بر اساس دانش و شهود قبلی است.
- با برخى از مقادير اوليه شروع كنيد و همزمان با ارزيابى عملكرد مدل. هایپراامترا را ه طور مکر اصلاح کنید.
- اين رويكرد براى آزمايشهاى مقياس كوجك يا زمانى كه تعداد هايبربارامترها محدود است مناسب است.
۲ جستجوی شبکه:
- جستجوی شبکه ای شامل تعریف شبکه ای از مقدیر ممکن برای هر هايبربارامتر و جستجوی جامع همه ترکیبات ممکن است.
- مدل برای هر ترکیب آموزش و ارزیبی می شود و بهترین عملکرد مجموعه هايبربارامترها انتخاب مى شود.
- جستجوی شبکه زمانی موثر است که فضای هایپرپارامتر نسبتاً کوچک باشد. اما مى تواند از نظر محاسبانی برای فضاهای جستجوی بزرگتر كران
باشد.
صفحه 114:
۰ ادامه... ؟
۲ جستجوی تصادفی:
- جستجوی تصادفی شامل نمونه گیری تصادفی ترکیبی از هایپرپارمترها از محدوده های از پیش تعریف شده است.
- این روش از نظر محاسباتی کمتر از جستجوی شبکه ای هزینه دارد. اما همچنان می تواند طیف گسترده ای از ترکیبات هایپرپارامتر را بررسی کند.
- جستجوی تصادفی زمانی کارآمدتر است که تتها چند هایپرپارامتر تأثیرقابل توجهی بر عملکرد مدل داشته باشند.
؟. بهينه سازى بيزى:
- بهینه سازی بیزی رویکرد پیشرفته تری است که از مدل های احتمالی برای هدایت جستجوی هایپرپارامترهای بهینه استفاده می کند.
- عملکرد. مدل رابه عنون تبعی از هایبرپرمترها مدل می کند و مجموعه بعدی هایپراامترها را بای ارزیلبی بر اساس ارزیلبی های قبلی انتخاب مى
کند.
- بهینهسازی بیزی نسبت به جستجوی شبکهای یا جستجوی تصادفی سریعتر همگرا میشود و برای فضاهای جستجوی بزرگتر مناسب است.
صفحه 115:
۰ ادامه... ؟
۵. کتابخانه های تنظیم خودکار هایپرپارامتر:
- چندین کتابخانه و چارچوب در دسترس هستند که فرآیند تنظیم هایپرپارامتر را خودکار می کنند.
- این کتابخانه ها مانند 001۳3 ,۳۱۷۵6۳0۵۲ با 1۳6۲ 6۲85 الگوریتم ها و رابط های کارآمدی را برای جستجو و بهینه سازی
ايبربارامتر ارائه مى دهند.
- آنها دي تواقلد فشاهلي جستجري هاببرواراستري سلته و بوجرده را مديريت كندد واظب وكيا Se راحت با جارجوب على بلذكيرى عديق سس و
می دهند.
۶ اعتبار سنجی متقابل:
- اعتبار سنجی متقابل اغلب همراه با تنظیم هایپرپارامتر برای به دست آوردن تخمین های عملکرد قابل اعتمادتر استفاده می شود.
-به جای یک تقسیم آزمون/ آموزش واحد داده ها به چند قسمت تقسیم می شون و مدل بر روی ترکیب های مختلف قسمت ها آموزش و ارزیبی می
ند و خطر یش برازش برای یک تقسیم داده خاص را کاهش می دهند.
پارامترها بر اساس میانگین عملکرد در قسمت ها تنظیم می
صفحه 116:
۰ ادامه... ؟
۷ معیارهای ارزیابی:
- انتخاب معيارهاى ارزيابى مناسب براى ارزيابى عملكرد مدل در طول تنظيم هايبربارامتر مهم است.
- انتخاب معيارها به وظيغه و مسله خاس بستگی دارد, ماندد دقت. زیانه صحتترخ بادآوری ۰ 1-5601 با ناحیه زیر صنحدى-لاله) 806
ROC)
شایان ذکر است که تنظیم هایپرپرامتر می تولند یک فرآیند محاسباتی فشرده باشد که به منلبع محاسباتی و زمان قلبل توجهی نیاز دارد.بتبرلین» لب
لازم است بين تعداد هایپرپارامترهای تنظیم. فضای جستجو و منابع موجود تعادل ایجاد شود.
علاوه بر این, تکنیکهایی مانند توقف زودهنگام. تر کیب مدل. یا یادگیری انتقالی نیز میتوانند بر عملکرد مدل تأثیر بگذارند و باید در طول تنظیم.
هايبربارامتر در نظر كرفته شوند
ابه طور كلى. تنظيم هايبربارامتر يك فرآيند تكرارى است كه شامل بررسی ترکیب های مخظف هايبربارامترهاء ارزيلبى عملكرد مدل و اصلاح جستجو بر
اساس نتایچ است. هدف یافتن مجموعهای از هایپرپارامترها است که عملکرد مدل را بر روى وظيفه و مجموعه داده(0313561]) داده شده بهینه میکند.
صفحه 117:
۱ مفهوم داده افزایی +دهناهادهصوه م121) چیست؟
داده افزایی تکنیکی است که معمولً در یادگیری ماشین و
میشود. لین عمل شامل اعمال تغییرات یا اصلاحات مختلف در نمونه دادههای موجودبا حفظ برچسبهای اصلی یا مقادیر هدف است. سپس داده های
ایی کامپیوتر برای افزایش مصنوعی اندازه و تنوع مجموعه دادههای آموزشی استفاده
افزوده شده برای آموزش مدل های یادگیری ماشین استفاده می شود.
هدف اصلی داده افزایی : بهبود تعمیم و استحکام مدل های آموزش دیده با قرار دادن آنها در معرض انواع بیشتری از نمونه های داده است. با معرفی
ات در مجموعه آموزشی. مدلها توانایی بیشتری در مدیریت انواع ورودیها پیدا میکنند و کمتر به الگوهای خاص یا بایاسهای موجود در
دادههای اصلی اضافه میشوند.
داده افزلیی را می توان برای انواع مختلفی از داده ها مانند تصاویر. متن. صدا یا سری های زملنی اعمال کرد. تکنیک های خاص افزلیش به حوزه داده و
عسل عورد نظر يستكى دارد. به عنوان متال» در داددهاى تصوير, عمليات على رايج افزایس داده ساسل چرعس, ترجمه مقياسبد ی 1110۵1119
برش تغيير رنك. اضافه كردن نويز و انسداد است. در پردازش زبان طبيعى. تكنيك هايى مانند جايكزينى كلمه: درج. حذف وبه هم ريختن جمله مى
توانند برأى تقويت عتن استفاده شوند.
صفحه 118:
۱ دامه
مفید است که دادم های آموزشی موجود محدود باشد» زبرا به طور موثری اندازه موثر مجموعه داده
داده افزايى به ويه زه افزايش مى دهد. اين
عمل. كمك مى كند قا از بيش برازش جلوكيرى شود. زيرا مدل در معرض نمونه هاى متنوع ترى قرار می كيرد كه تغييرات و سناريوهاى مختلف راجه
تصوير مى كشد. اوه بر لین, داده افزليى همجنين مى تولند با ايجاد نمونه هاى مصنوعى براى كلاس ها اقليت. مسائل مربوط به نامتوازنى كلاس را
برطرف کنده در نتیچه توزیم کلاش ها را در داده های آموزشی متعادل می کند.
به طور کلی؛ داده افزلیی یک تکنیک ارزشمند برای افزایش عملکرد و قابلیت تعمیم مدل های یادگیری ماشین با گسترش مصنوعی مجموعه داده های
آموزشی با تغییرات واقعی داده های اصلی |
صفحه 119:
۳۲ چگونه داده افزابی به بهبود عملکرد مدل های بادگیری عمیق کمک می کند؟
داده افزایی از چند جهت در بهیود عملکرد مدلهای یادگیری عمیق نقش اساسی دارد:
1 افزلیش تنوع داده هابا اعمال تفییرات و اصلاحات مختلف در داده های آموزشی» داده افزلیی طیف وسیع تری از تغییرات و ستاریوها را معرفی می کند.
این افزایش تنوع دادهها به مدل کمک میکند الگوها را از دیدگاههای مختلف تشخیص و تعمیم دهد. که منجر به عملکرد بهتر در دادههای دیده نشده
میشود.
۲ تعمیم بهبود یافته: مدل های یادگیری عمیق تملیل به داشتن تمداد زیادی پارامتر دارند و مستعد بیش برازش هستند به خصوص زملنی که مجموعه
ass آموزشی کرچک لست. داده آفزایی به طور موتر مجموعه دلده ر[ گنتترش عي دهد و تمیته های متنوع تری را برای مدل SOUT TE Gus cally
بكيرد. با قرار هادن مدل در معرض اتباع بيشترى از نموتمها. مدل قویتر میشود و لجتمال اننکه نمونههای آموزشی حلص را به خاطر یپرد کمتر
میشود. و در نتیجه تعمیم بهتری به دادههای جدید و نادیده میشود.
۳ استقامت نسیت به تغییرات: داده های دنیای واقعی اغلب تنوع و تغییرات مختلفی را نشان می دهند. مائند تغییرات در شرایط نوره دیدگاه مقیاس یا
نویز. با استفاده از تکنیکهای داده افزاییی که این
را در طول آموزش شبیهسازی میکنند. مدل اتعطافيذيرتر مىشود و قادر به مديريت جنين
سناريوهاى دنياى واقعى است. اين امر به بهبود عملكرد مدل در مواجهه با داده هاى ورودى كه با نمونه هاى آموزشى اصلى متفاوت است. كمك مى كند.
صفحه 120:
۲ ادامه..؟
۴ پرداختن به نامتوازنی کلاس: در بسیاری از مسائل طبقه بندی: داده های آموزشی ممکن است توزیع نامتوازنی در بین کلاس های مختلف داشته
باشند. جلیی که برخی از کلاس ها نمونه های کمتری نسبت به سایرین دارند. داده افزلیی می تولند نمونه های مصنوعی برای کلاس های اقلیت ایجاد
کند. وبه طور موثر توزیع کلاس را متوازن کرده و از یاس مدل به سمت كلاس اكثريت جلوكيرى مى كند. اين امر به بهيود عملكرد مدل در
كلاسهاى اقليت كمك مىكند.
۵ کاهش بیش برازش: داده افزایی. تصادفی بودن و تنوع را به فرآیند آموزش وارد می کند و به عنوان نوعى منظم ساز عمل مى كند. اين اثر
منظمسازی, به جلوگیری از بیش برازش کمک میکند. جایی که مدل بیش از حد به دادههای آموزشی برازش میشود و روی دادههای دیده نشده
ضعیف عمل میکند. با افزلیش مجموعه آموزشی, مدل در معرض تغیبرات مختلف قرار می گیرد و قوی تر می شود که این امر منجر یه بهبود عملکرد
تعمیم می شود.
توجه به لین نکته مهم است که داده افزایی باید با ملاحظات خاص دامنه اعمال شود. انتخاب تکنیکهای داده افزایی باید بر اساس ویژگیها و الزامات
دادها و همچنین مساله خاصی که به آن پرداخته میشود هدایت شود
صفحه 121:
۳ مفهوم قطعه بندی تصوبربط0] 560160 1۳026 ) را در یادگیری عمیق توضیح دهید.
قطعهبندی تصویر یک وظیفه بینلیی کامپیوتری است که شامل تقسیم یک تصویر به نواحی یا بخشهای معنادار و از لحاظ معنلبی منسجم است. هدف
لین است که به هر پیکسل در تصویر یک برچسب یا دسته بندی اختصاص دهیم و به طور موثر یک ماسک یا نقشه در سطح پیکسل ایجاد کنیم که
آشیا با تواحی محتلف را در تصنوير جدا مى كتدد
در زمینه یادگیری عمیق, قطعهبندى تصوير معمولاً به عنوان يك مساله يادكيرى تحت نظارت در نظر گرفته میشود. مدلهای یادگیری عمیق. مانند
شبکههای عصبی کانولوشن ((1-)» برای پیشبینی ماسکهای قطعه بندی از مجموعه دادههای آموزشی برچسبگذاریشده» که در آن هر تصویر با
برچسبهای حقیقت میتتی بر پیکسل حاشیهنویسی میشود.آموزش دیداد
فرآیند قطعه بندی تصویر شامل مراحل زیر است:
۱. تصویر ورودی: تصویری که باید قطعه بندی شود به عنوان ورودی به مدل یادگیری عمیق وارد می شود. این مدل معملا از لیهای متعددی از
عملیات کانولوشن, ادغام و نمونهبداری تشکیل میشود که ویژگیهای محلی و سراسری تصویر ورودی را ضبط و پردازش میکند
صفحه 122:
۳ ادامه... .
۲ رمزگذاری:لایه های اولیه مدل با استخراح ویژگی های سلسله مراتبی از طریق عملیات کانولوشن, تصویر ورودی را رمزگذاری می کند لین فرآیند
الكوهاى بصرى سطح بايين. مانند لبدها و بافتهاء و همچنین ویژگیهای سطح بلاتری را که اشکال و ساختارهای پیچیدتری را نشان میدهند. درک
میکند.
۲ رمزگشلیی: ویژگی های کدگذاری شده سپس از لایه های بعدی عبور می کنند که عملیات ۷053۲00۱۳9 و 60۳0۷01۱010۳2۱ را انجام می
دهند. لین فرآیند رمزگشایی با هدف بزیلبی وضوح فضایی تصویر اصلی در حللی که ویژگی های آموخته شده را تجمیع و یکپارچه می کند. انجام می
شود.
؟: طبقه بندی پیکسلی: در لایهنهیی مدل, یک طبقه بندی پیکسلی انجام می شود لین لایه یک توزیع احتمال یا یک امتیاز اطمینان برای هر پیکسل
خروجی می دهد که نشان دهنده احتمال تعلق به کلاس ها یا بخش های مختلف است. تعداد کانال های خروجی در این لایه با تعداد کلاس ها یا قطعه
های مجزا مطابقت دارد.
صفحه 123:
۳ ادامه... .
۵. آموزش: در طول مرحله آموزش, مدل برای به حداقل رساندن اختلاف بین ماسکهای قطعهبندی پیشبینیشده آلن و ماسكهاى حقيقت مبنا
ارائهشده در مجموعه داده آموزشی برچسب گذاریشده. بهینهسازی میشود. لین امر معمولاً بابه حداقل رساندن یک تلبع زیان» مانند آنتروپی متقابل یا
خطای میانگین مربعات پیکسل, که تفاوت بین ماسک های حقیقی پیش بینی شده و مبنا را حساب می کند. انجام می شود.
۶ استنتاج: هنگامی که مدل آموزش داده شد. می توان از آن برای قطعه بندی تصاویر جدید و دیده نشده استفاده کرد. تصوير ورودی از طریق مدل
آموزش دیده ارسال می شود و خروجی یک ماسک تقسیم بندی در سطح پیکسل است که در آن به هر پیکسل یک برچسب یا کلاس مربوط به قطعه
شناسایی شده اختصاص داده می شود.
قطعه بندی تصویر کاربردهای متعددی در حوزههای مختلف دارده مانند تصویربرداری پزشکی, رانندگی خودکار تشخیص اشیاء ویرایش تصویر و درک
ee ee ee بعنا. آين روش
تسهیل میکند.
صفحه 124:
۴ برخی از معماری های متداول برای قطعه بندی تصویر کدامند؟
چندین معماری متداول برای قطعهبندی تصوير وجود دارد که بسیاری از آنها عملکردی پیشرفته در مجموعه دادههای معیار به دست آوردهاند. برخی از
معماری های قابل توجه عبارتند از:
U-Net .1 :)عل-لا یک معماری پرکاربرد و تاثیرگذار برای قطعه بندی تصویر یک ساختار رمزگذار-رمزگشا با اتصالات پرش تشکیل شده
است. مسیر رمزكذار. زمينه و ويزكىها را از طريق عمليات نمونفبردارى بابين درك مى كند. در حللى كه مسير رمزكشاء نموتفبردارى را نجام میدهد و
وضوح فضايى را بازيابى مىكند. اتصالات برش لايههاى رمزكذار و رمزكشاى مربوطه را براى حفظ جزئيات دقيق به هم متصل مىكنند. :6 /١-لا در
کارهای قطعه بندی مختلف. به ويزه در تجزيه و تحليل تصوير زیست پزشکی موفق بوده است.
DeepLab: DeepLab ۲ خانواده ای از معماری ها است که بر پایه کانولوشن های گسترش يافته و ادغام هرم فضايى آتروس (8588) بنا
شده است. کانولوشن های گسترش یافته به مدل امکان میدهند بدون کاهش وضوح فضایی, میدان دریافتی بزرگتری داشته باشد. ۸۵5۴ از
کانولوشن های گسترش یافته موازی با نرخ های گسترش مختلف برای ثبت اطلاعات متن چند مقیاسی استفاده می کند. مدلهای 266010 با
نع مختلفی مانند 0660120۷3 و 066010۷3+ به عملکردی قوی در وظایف قطعهبندی معنابی دست یافتاد.
صفحه 125:
۴ ادامه..
R-CNN: Mask R-CNN ¥ ۷851 توسعهای از معماری سریعتر تشخیص شی Sa fold af CI R-CNN شاخه اضافی برای قطعهبندی
نمونه در سطح پیکسل است. این روش شبکههای پیشنهادی ناحیه ٩( را برای تشخیص شی و یک شبکه کاملاً انولوشن برای قطمه بندی
Mask R-CNN ws 6 55 ثلبت کرده است که در قطعه بندی اشیاء متعدد در یک تصویر موثر است و به یک انتخاب محبوب برای کارهای
قطعه بندی نمونه تبدیل شده است.
۴ (شبکه تمام کانولوشنال): ۲/۷ یکی از اولین معماری های پیشگام برای قطعه بندی تصویر است. این لایههای تمام متصل CNN oS,
سنتی را با لیههای کانولوشن جایگزین میکند و پیشبینیهای سطح بيكسل انتها به انتها را امكان بذير مىكند. 6۷*] مفهوم ۱0531۳۵11۳9 و
رد کردن اتصالات را برایبازیایی وضوح فضایی و ترکیب ویژگیها از مقیاسهای مختلف معرفی کرد. اگرچه معماری های بعدی بر اساس ل۷ ۴ ساخته
شده اند. اما همچنان یک مدل اساسی و تأثیرگذار در اين زمینه است.
۵ (شبکه تجزیه صحنه هرمی) ۳5۳۱۱6 : 6۲! ۳۹ از یک ماژول ادغام هرمی برای جمع آوری اطلاعات زمیته ای چند مقیاسی استفاده می
کند.با تقسیم تصوير ورودی به شبکهها و ادغام ویژگیها در مقیاسهای مختلف, متن عمومی رابه تصوير میکشد. سپس ویژگی های ادغام شده نمونه
برداری می شهند و برای ایجاد نقشه قطعهبندی نهلیی می شوند. ۳5۳/۷61 به نتلیج رقابتی در وظلیف قطعهبندی معنلیی دست یافته است و
اهمیت گرفتن اطلاعات متنی را نشان میدهد.
اينها تتها چند نمونه از معماری های محبوب برای قطعهبندی تصوير هستند. دیگر مدل های قابل توجه عبارتند از ,۶۱6 :۴۵-۲6056۱۱6
6لالا++ و بسیاری دیگر. انتخاب معماری به نیازهای خاص وظیفه, منابع موجود و مجموعه داده مورد نظر بستگی دارد.
صفحه 126:
۵ مفهوم تشخیص شی در یادگیری عمیق چیست؟
تشخیص اشیاء یک وظیفه بینلیی کامپبوتری است که شامل شناسایی و مکان یلبی چندین شی مورد علاقه در یک تصوير یا یک ویدیو است. هدف این
کار شناسایی وجود اشیا و اراند مختصات جعبه مرزی آنها به همراه برچسب های کلاس مربوطه آنهاست.
در زمینه یادگیری عمیق. تشخیص شی معمولاً به عنوان یک مساله یادگیری نظارت شده تلقی می شود. مدلهای یادگیری عمیق, مانشد شبکههای
عصبی کانولوشن (!|-))» برای یادگیری نمایشها و ویژگیهای اشیاء از مجموعه دادههای آموزشی برچسب گذاریشده آموزش دیدهاند. سپس از مدل
ها برای پیش بینی حضور مکان و کلاس اشیاء در تصاویر با ویدیوهای جدید و دیده تشده استفاده می شود.
مفهوم تشخیص شی شامل عناصر کلیدی زیر است:
۱.مکان یلبی: تشخیص اشیانه تنها با هدف شناسایی اشیاء بلکه مکان یلبی آنها با ارلئه مختصات جعبه مرزی دقیق انجام می شود. جعبه مرزی ناحیه
مستطیلی
اهمراء عرض وارتطاع جعبه مرزى Seca eee
آن می دهد که شی را در تصویر محکم محصور می کند. مختصات معمولا از مختصات بالا چپ و پایین راست یا مختصات مرا
صفحه 127:
۵ ادامه...؟
۲. طبقه بندی: تشخیص اشیا شامل تخصیص برچسب های کلاس به اشیاء شناسایی شده است. به هر شی یک کلاس خاص از یک مجموعه از پیش
تعریف شده از دستههاء مانند «ماشيين». «شخص». «گربه» و غیره اختصاص داده میشود. طبقهبندی معمولاً با استفاده از توابع فعالسازی
5013 يا 510170010 براى توليد احتمالات كلاس براى هر شى شناسايى شده انجام مىشود.
۳ تشخیص چند شی»: مدل های تشخيص شى براى تشخيص جندين شى در يك تصوير یا یک ویدیو به طور همزمان طراحی شده اند. مدلها باید
سناریوهایی را مدیریت کنند که در آن چندین نمونه از یک کلاس یا کلاسهای مختلف ممکن است همزمان وجود داشته باشند. خروجی یک مدل
تشخیص شی شامل مختصات جعبه مرزی و برچسب های کلاس برای تمام اشیاء شناسایی شده در تصوير است.
۴ همپوشلنی و حذف نقاط غیر بیشینه: در مواردی که جمبه های محدودکننده متعدد با هم همپوشانی دارند یا یک شی را می پوشانند. یک تکنیک
پس پردازش به نام حذف نقاط غیر بیشینه(15]) اغلب استفاده می شود. 115 با در نظر گرفتن امتیازات اطمینان تشخیصها و انتخاب
ار و ee اشافى يا همررشاتى را خذف م ىكتد
تشخيص شيا كاربردهاى متعددى از جمله رانندكى خودكار. سيستم هاى نظارتى. تشخيص اشياء تجزيه و تحليل ويديويى و روباتيك دارد. اين الكوريتم
ماشينها را قادر مىسازد نا با شناسايى و مكان يلبى اشياء مورد نظر. محيط اطراف خود را درک کنند و در برنامههاى بينايى كامبيوثرى بيشرفتهتر و
هوشمندتر استفاده شوند.
صفحه 128:
۶ تفاوت روش های تشخیص اشیاء یک مرحله ای و دو مرحله ای را توضیح دهید.
روش های تشخیص اشیاء یک مرحله ای و دو مرحله ای دو رویکرد متفاوتی هستند که در یادگیری عمیق برای شناسایی و مکان یابی اشیء درون تصاویر
استفاده مى شوند. تفاوت اصلى در تعداد مراحل دركير در فرآیند تشخيص و نحوه مديريت مکان بلبی آشبا مش ااستم
.١ تشخيص شى دو مرحله ای:
در روش هاى تشخيص شى دو مرحله اى. فريند تشخيص به دو مرحله بيشتهاد ناحيه و طيقه بندى تقسيم مى شود.
مرحله :١ ييشنهاد ناحيه
مرحله اول شامل ایجاد مجموعهای از پیشنهادات ناحیه ای است. که کاندیدهای بالقوه جعبه مرزی هستند که ممکن است حاوی موضوعات مورد نظر باشند. اين
پيشنهادها معمولاً یا استفاده از تکنیکهایی مانتد جسنجوی انتخلبی, جعبههای لبه یا شبکههای پیشنهاد ناحیه (/۳]) تولید میشوند. هدف کاهش فضای
رو سای وس بای مر تور بتک حاو لخاد +
مرحله ۲: طبقه بندی و پالایش
در مرحله دوم. پیشنهادات ناحیه ای تولید شده در مرحله قبل بیشتر اصلاح شده و در کلاس های شی خاص طبقه بندی می شوند. مدل های یادگیری عمیق.
مانتد لا عد برای استخراج ویژگی ها از نواعى ييكتهادى و طبقه بندی آنها بر لسلس تدايش های آموخته شده استفاده مي شون مختصات جمبه مرزی
اصلاح شده رای تراز بهتر با اشیاء در تصویر تنظیم می شود. مدلهای متداول برای تشخیص شی دو مرحلهای عبارتند از 8۳۵۷۸۷ 6۲اکو۴ و R-CNN
روشهای دو مرحلهای معمولاً به دلیل پیشنهاد ناحیه جداگانه و مراحل طبقهبندی. دقت بالاتری دارند. با این حال. آنها از نظر سرعت استنتاج کندتر هستند.
صفحه 129:
. ادامه... FF
۲ تشخیص شی یک مرحله ای
روشهای تشخیص شی یک مرحلهای. مکان یلبی و طبقهبندی شی را در یک گذر شبکه انجام میدهند و نیازی به یک مرحله پیشنهاد ناحیه جداگانه
را از بین میبرند.
در یک رویکرد یک مرحلداى. شبكه مستقيماً برجسبهاى كلاس و مختصات جعیه مرزی را برای همه مکانهای بالقوه در تصویر پ
مکان ها از پیش تعریف شده و به طور متراکم در سراسر تصویر در مقیاس ها و نسبت های مختلف نمونه برداری می شوند. سپس
استفاده از آستانه اطمینان و حذف نقاط غیر بيشینه فیلتر میشوند تا نتایج تشخیص نهابی به دست آید.
روشهای یک مرحلهای به دلیل ماهیت تکگذری. عموماً سریعتر از روشهای دو مرحلهای هستند. اما ممکن است در مقایسه با روشهای دو مرحلهای.
مقداری دقت را قربانی کنند. مدلهای رایج تشخیص شی یک مرحلهای عبارتند از ۷۵10 (شما فقط یک بار نگاه میکنید) و 51۳916) 550
Shot MultiBox Detector)
انتخاب بین روش های تشخیص اشیاء یک مرحله ای و دو مرحله ای به نیازهای خاص برنامه بستگی دارد. روشهای دو مرحلهای اغلب زملنی که دقت
بالاتر ضروری است ترجیح داده میشوند. در حالی که روشهای یک مرحلهای برای کاربردهای بلادرنگ که سرعت در اولوبت است. ترجیح داده
میشوند.
صفحه 130:
۷ معماریهای مشهور برای تشخیص شی چیست؟
چندین معماری مشهور برای تشخیص اشیا وجود دارد که عملکرد پیشرفتهای را در مجموعه دادههای معیار به دست آوردهاند. در اینجا چند نمهنه قلبل
توجه آورده شده است:
!۱۱۷ سریمتر. 6339 سریمتر یک معماری تشخیص اشیا برکربرد و تأشرگتار است. این معماری شامل دو جزء اصلي است, یک شبکه
پیشنهادی ناحیه )6٩۳/۷( برای تولید پیشنهادات ناحیه و یک شبکه عصبی کانولوشن مبتنی بر ناحیه (/۷(۷//)-) برای طبقهبندی و رگرسیون جعبه
مرزی. !13-6-81 سریعتر با ترکیب مزایای روشهای پيشنهاد ناحیه و مدلهای طبقهبندی مبتنی بر یادگیری عمیق, به دقت بالایی دست مىيابد.
۲ ۷۵۱۵ (شما فقط یک بار نگاه می کنید): (۷0(16 یک معماری تشخیص اشیاء یک مرحله ای است که به دلیل عملکرد بلادرنگ خود شناخته
شده است. ۷0۵10 تصویر ورودی را به یک شبکه تقسیم می کند و جعبه های محدود و احتمالات کلاس را مستقیماً از هر سلول شبکه پیش بینی می
کند. ۷0۵16 به دلیل ماهیت تک گذر خود سریع و کارآمد است. اما ممکن است کمی دقت را در مقایسه با روش های دو مرحله ای قربلنی کند. انواع
۷۵1۵ عبارتند از ۲۷۵۱۵۷2۰۷۵۱۵۷3 و ۲۷۵۱۵۷4
Detector): SSD + ۱۸۵۱۱8۵۲ 5۱0۴ او5) 5510 یکی دیگر از معماری های مشهور تشخیص اشیاء یک مرحله ای است. از یک
سری لایه های کانولوشن با وضوح های فضایی مختلف برای تشخیص اشیاء در مقیاس ها و نسبت های چندگانه استفاده می کند. 5510 جابجایی
جعیه محدود و احتمالات کلاس را در هر مکان در نقشه های ویژگی پیش بینی می کند. این معماری به تعادل خوبی بين سرعت و دقت دست مى
یابد.
صفحه 131:
۷ ادامه..؟
۴ 86۵۲۱۳۵۱۱۵۲ :)۴6/0816 یک معماری تشخیص شى دو مرحله ای است که برای رسیدگی به مسئله نامتوازنی کلاس در مجموعه داده های
تشخیص اشیا طراحی شده است. لین معماری یک زیان کانینی را معرفی می کند که آموزش را بر روی نمونه های سخت و طبقه یندی اشتباه متمرکز
می کند و به بهبود تشخیص اشیاء نادر کمک می کند. 6110216 از یک شبکه هرمی ویژگی (۳۳۸۷) برای گرفتن ویژگیهای چند مقیاسی
استفاده میکند و به عملکرد قوی در وظایف تشخیص اشیا دست يافته است.
Ss EfficientDet: EfficientDet » معماری کارآمد تشخیص اشیا است که یا تعداد پارامترهای کمتر و هزینه محاسباتی به دقت بالایی
دست می یابد. این شبکههای اصلی کارآمد (مانند )1616۳00016 رابا 51۳۳۱ (شبکه هرمی ویژگی دو جهته» ترکیب میکند و مقیاسبندی
ترکیبی را برای متعادل کردن دقت و کارایی در اندازههای مختلف مدل اعمال میکند.
اینها تنها چند نمونه از معماری های مشهور برای تشخیص اشیا هستند. مدلهای قلبل توجه دیگر عبارتند از Cascade R-CNN. Mask R-
CNN که تشخیص اشیا را به قطعهبندی نمونه گسترش میدهد) و بسیاری دیگر. انتخاب معماری به نیازهای خاص وظیفه. منابع موجود و تعادل بين
دقت و کارایی بستگی دارد.
صفحه 132:
طبیعی (۴.-11) چیست؟
۸ مفهوم پردازش زا
پردازش زبان طبیعی (۱11۳) رشته ای از هوش مصنوعی و زبان شناسی محاسباتی است که بر تعامل بین کامپیوتر و زبان انسان تمرکز دارد. لين رشته
شامل مطالمه. توسعه و استفاده از لگوریتمها و مدلها میشود تا کلمپیوتر ها را قاد به درک» تفسیرء تولید و دستکاری زبان انسان به روشی مقید و
معنادار کند.
الا طیفگ سردم لواز وظايفو تسكنيكهارا در بسر مىكسيرد. از جملد:
۱ درک متن: هدف الا] اين است كه كامييوتر ها را قادر به درك و استخراج معنى از متن كند. اين كار شامل وظايفى مانند طبقه بندى متن. تجزيه
و تحلیل احساسات. شناسايى موجوديت نام دار و استخراج اطلاعات است. هدف این است که ماشین ها بتوانند داده های متتی را به روشی مشلبه انسان
ها درک و پردازش کنند.
.توليد زبان: ols NLP تولید زبان مشلیه انسان توسط ماشین ها می شود. لین عمل شامل وظیفه هلیی مانند خلاصهسازی متن. ترجمه ماشینی:
تولید گفتگو و تبدیل ستن به گفتار است. هدف تکنیک های تولید زبان. تولید مت با خروجی گفتار منسجم و مناسب با متن است.
۳ پردازش گفتار: ۱1-8 همچنین به تجزیه و تحلیل و پردازش زبان گفتاری می پردازد. لین کار شامل وظایفی مانند نشخیص خود کار گفتار MASR)
شسای گوینده. و ترکب گفتار است. هدف تكنيك على بردازش گفتار تبدیل زبان گفتاری به متن نوشتاری و بالمعس است و ماشنها را قادر
میسازد تا ویان گفتاری را بفهمند و با آن تعامل داشته باشند.
صفحه 133:
۸ ادامه...؟
۴ پاسخ به سوال: #ال| وظیفه ساختن سیستم هلیی را بر عهده دارد که می تونند به سوالات مطرح شده یه زبان طبیعی پاسخ دهند. لین کار شامل
درک معنای سوال, بازیابی اطلاعات مرتبط از منایع داده های ساختاریافته یا بدون ساختار. و ایجاد یک پاسخ مختصر و دا
۵. مدلسازی زبان: مدلسازی زبان جزء اصلی الا است که شامل پیشبینی احتمال دنباله کلمات یا تولید متن جدید بر اساس الگوهای آموخته
شده است.
مدلهای زبان نقش مهمی در کارهایی مانند ترجمه ماشینی, تکمیل متن و تولید زباندارند
تکنیکهای "لا بر رویکردهای مختلفی از جمله روشهای آماری. یادگیری ماشینی؛ یادگیری عمیق و سیستمهای مبتنی بر قانون تکیه دارند. ين
روشها از مقادیسر زیادی از دادههای متنضی اسستفاده میکنند و از الگوریتمهایسی مانند شبکههای عصبی, شبکههای عصبی بازگشتی ARN)
ترانسفورمرها و مدلهای دنبالهبه دنباله استفاده میکنند.
۷1| طیفگ سترده لعاز dal, از جمله دستیللنمجایی چتباتها تسجزيه و تحليل حساساتهرلئن ظلتبر انه هاىإجتماعى طبقه بندى
لسند. تسرجمه ماشينى بازياب إطاهاتو موارد ميكر دارد. هدف ير كسرهنثكافبيزبازإنسازو دركماشي ريستو لمکانسرقرارواتباط و تعاملزثر
بيرإفسازو كسامييوتر را فساهممیکسد.
صفحه 134:
٩ چگونه می توان یادگیری عمیق را در کارهای ۷1۴ به کار برد؟
یادگیری عمیق با دستیابی به نتایج پیشرفته در وظایف مختلف !۰ پردازش زبان طبیعی (1!) را متحول کرده است. مدلهای یادگیری عمیق
میتوانتد به طور موزثر الگوهای پیچیده» سلسله مراتب و نمایشهای بيجيده را از دادههای متن خام بیاموزند و آنها را قادر به درک» تولید و دستکاری
زبان انسانی میکنند. در اینجا برخی از کاربردهای کلیدی یادگیری عمیق در الا آورده شده است:
۱. طبقهبندی متن: مدلهای یادگیری عمیق. مانشد شبکههای عصبی کانولوشن (/2۱۷)) و شبکههای عصبی باززگشتی (ل۱» میتوانند برای
کارهای طبقهبندی متن استفاده شونداین مدلها می توانتد ویژگی های معنی دار را از متبن بياموزتد و اسناد راجه دسته هایی مانند تجزیه و تحلیل
احساسات. طبقه بندی موضوع. تشخیص هرزنامه و طبقه بندی اسناد طبقه بندی کنند.
۲ شناسایی موجودیت های نامدار (0]]): مدل های یادگیری عمیق, به ویژّه مدل های برچسب گذاری دنباله مانند فیلدهای تصادفی شرطی
BILSTMS) 45,b yo LSTMs , (CRFS) در شتاسایی و استخراج موجودیت های نامدار از متن. مانتد نام افراده سازمان هاء مکان ها و سایر
نهادهای خاص موثر هستند.
صفحه 135:
٩ ادامه..؟
۳ ترجمه ماشینی: مدل های یادگیری عمیق, به وییه مدل های دنباله به دنبلله مانند شبکه های عصبی بازگشتی (!۷(]) و ترانسفورمرهاء یه طور
قلبل توجهی سیستم های ترجمه ماشیتی را بهبود بخشیدهاند. لین مدلها میتونند با نگاشت دنبلههای ورودی به دنبالههای خروجی, توجمه متن را
از یک زبان به زبان ديكر بياموزند.
۴ تحلیل احساسات: مدلهای یادگیری عمیق. از جمله [0|لا31] .| الا]ن). و ترانسفورمرهاء میتوانند با گرفتن اطلاعات معنایی و موضوعی در متنء
تحلیل احساسات را انجام دهند. آنها میتوانند یاد بگیرند که متن رابه دستههای احساسات مثبت. منفی یا خنشی طبقهبندی کنند و تجزیه و تحلیل
احساسات را در نظارت بر رسانههای اجتماعی, بررسیهای مشتریان و نظركاوى امكان بذير كنند.
شتی )6٩(۷/( و ترانسفورمرهاء می توانتد
۵ تولید متن: مدل های یادگیری عمیق. مانند شبکه های
توانند برای کارهایی مانند خلاصه سازی متن, تولید دیالوگ, تولید داستان و تکمیل متن استفاده شوند.
۶ پاسخ به سوال: مدلهای یادگیری عمیق. مانند نمایشهای رمزگذار دو جهته مبتنی بر توجه از تراسفورمرها (86]۸۲) و انواع آمن؛ عملکرد
قبلتوجهی در وظایف پاسخگویی به سوال به دست آوردهند. این مدلها میتوانند زمینه سوال را درک کنند و با استفاده از پیشآموزش در مقیاس
بزرگ بر روی مجموعههای متنی, پاسخهای دقیقی را ايجاد كنند.
صفحه 136:
۰ مفهوم شبکه های عصبی بازگشتی برای ۷1۴ را توضیح دهید.
شبکههای عصبی بازگشتی )1٩۱۷/1( دستهای از شبکههای عصبی هستند که معمولاً بای وظلیف پردازش زبان طبیعی (11) به دلیل توانلیی آنها در
مدیریت دادههای متوالی استفاده میشوند. 1۷/۷آها به گونهای طراحی شدهاند که وابستگیها و روابط را در دادههای متوالی با پردازش دادههای ورودی
به صورت متوالی و در عین حال حفظ وضعیت حافظه داخلی؛ ثبت کنند.
ایده اصلی پشت ۱( ها این است که آنها اطلاعات را از یک مرحله به مرحله بعدی منتقل می کنند و به آنها اجازه می دهد تا زمینه و تاریخچه
٠ تجزیه و تحلیل احساسات, ترجمه ماشینی و
دنباله ورودی را در نظر بگیرند. این کار باعث می شود که آنها به ویژه برای کارهایی مانند مدل سازی ز
تولید دنباله مناسب باشند.
مژلفه کلیدی یک Jlasl RNIN بازگشتی است که شبکه را قادر میسازد تا حللت پنهانی را حفظ کند که اطلاعات مراحل قبلی را در بر میگیرد. در
هر مرحله زمانی. 1٩۱۷/۷ یک بردار ورودی می گیرد که معمولاً یک کلمه یا یک کاراکتر را نشان مى دهد. و آن را با حالت پنهان مرحله قبل ترکیب می
کند تا خروجی ایجاد کند و حالت پنهان رابه روز کند. سپس حللت پنهان به روز شده در مرحله زمانی بعدی استفاده می شود و یک حلفه بازخورد
برگشتی ایجاد می کند.
صفحه 137:
+ ادامه....
از نظر ریاضیء محاسبات در یک لا|۱۷٩] را می توان به صورت زیر بیان کرد
ht = f (Wxh * xt + Whh * ht-1 + b)
در اين معادله, ۱۸| حالت پنهان را در مرحله زملنی نشان میدهد. 26 بردار ورودی در مرحله زمانی ) است. ؟ یک تلبع فعالسازی غیر خطی است (به
عنوان منال. سیگموید یا tanh ۷۷/0 و Wh ماتریسهای وزن هستند و 0 یک بردار بایاس.
ماهیت بازگشتی ٩۱۷! ها به آنها اجازه می دهد تا وابستگی ها را در طول های دلخواه داده های متوالی مدل کنند. با این حال. ٩۱۷ های استاندارد
از مشكل محوكراديان رنج می برند. جایی که گرادیان ها به طور تصاعدی در طول دنباله های طولانی کاهش می یابند. و درک وابستگی های طولائی را
بای شبكة خشيار عى كتده
برای پرداختن به این موضوع. انواع مختلفی از ٩۱۷۷ ها توسعه داده شده است. يكى از انواع محبوب. شبكه حافظه كوتاه مدت طولانى(511/1-]) است
كه سلول هاى حافظه تخصصى و مكانيسم هاى دروازه اى را برای حفظ و کنترل بهتر جریان اطلاعات در طول زمان ترکیب می کند.نوع دیگر واحد
بازگشتی دروازه دار (3811)) است که معماری را با ترکیب دروازه های فراموشی و ورودی 911۷ .ساده می کند.
لین گونههای پیشرفته از | /*]هاء مانتد 51| و ols as GRU توانایی بهبود یافتهشان در جذب وایستگیهای طولانیمدت و کاهش مشکل محو
گرادیان . به طور گسترده در وظایف ۱۱.۳ مورد استفاده قرار گرفتهند. این مدلها کمک قابل توجهی به موفقیت یادگیری عمیق در ۴ال و ستون
فقرات بسیاری از مدلهای زبانی پیشرفته. تولیدکنندههای متن و مدلهای مبتتی بر دنباله شدهاند
صفحه 138:
۵۱. چالشهای موجود در آموزش شبکه های عصبی بازگشتی برای ۱۷1-۴ چیست؟
آموزش شبکه های عصبی بازگشتی (۵۱۷!۷)برای وظایف پردازش زبان طبیعی oe (NLP) تولند چندین چالش را ایجاد کند. در اینجا چند چا
متداول در هنگام آموزش ٩۸۷8! برای طأل] توضیح داده شده است:
۱. محو و انفجار گرادیان: ٩۱| ها می توانند مشکل محو یا انفجارگرادیان داشته باشند. در دنبالههای طولانی» گرادیانها میتوانند به طور تصاعدی
کاهش با رشد کنند. که انتشار و بادگیری اطلاعات در وایستگیهای بلندمدت را برای شبکه دشوار سىكند لين مستله مىتولند منجر به آموزش تابايدار
شود و توانایی مدل را برای درک الگوهای معنادار مختل کند.
۲ مدلسازی وابستگی بلندمدت: | ۱۷*آهابه دلیل تحلیل رفتن اطلاعات در طول زمان. محدودیتهایی در جذب وابستگیهای بلندمدت دارند. زملنی
که فاصله زمانی قابل توجهی بین وابستگیهای مربوطه وجود داشته باشد. !۱۷ آها ممکن است برای اتصال مزثر آنها مشکل داشته باشند. این
محدودیت می تواند بر کارهایی که نیازمند درک و ایجاد دنباله های طولائی منسجم هستند تأثیر بگذارد.
۳مدم وجود موازی سازی: 3۱1۷ ها دنبله های ورودی را به صورت متوالی پردازش می کننده که موازی سازی را در لول آموزش محدود مى كند.
اين امر مى تواند منجر به کاهش زمان آموزش در مقایسه با شبکه های عصبی پیشخور شود. ماهیت متوللی 1٩۸1/۷ ها باعث می شود که آنها برای
آموزش مبتنی بر لا3). که بر عملیات موازی متکی است. کارایی کمتری داشته باشند.
۴. محدودیتهای حافظه: ل۱۷٩/هلیی که نیز به حافظه زیادی دارند. مانند 1514 و GRU برای آموزش نسبت به حافظه محدودیت دارند. بهویژه
زمانی که با دنبالههای طولانی یا اندازه واژگان بزرگ سروکار دارند. محدودیت های حافظه می تولند اندازه دسته یا طول دنبلله قلبل پردازش را محدود
کند و بر سرعت آموزش و ظرفیت کلی مدل تأثير بكذارد.
صفحه 139:
۵ ادامه..؟
۵ پراکندگی داده ها و کلمات خارج از واژگان: مجموعه داده های Ale] NLP پراکندگی داده ها را نشان می دهند» جایی که بسیاری از ترکیبات یا
عبارات کلمات در داده های آموزشی وجود محدودی دارند. علاوه بر اين. مواجهه با کلمات خارج از واژگان (060۷)) که کلماتی هستند که در طول
آموزش دیده نمی شوند. می تولند چللش هلیی برای 6٩۱۷ ها ایجاد کند. برخورد با کلمات نادره موضوع های ناد
یک چالش همیشگی در وظایف لا است.
و تعميم موثر به رتست و
& بيش برازش و تعميم: | الاا8] هاء مانند ساير مدل هاى يادكيرى عميق. مى توانند مستعد بيش برازش باشند. جايى كه آنها به جاى يادكيرى
الكوهاى قلبل تعميم. نمونه هاى آموزشى را حفظ مى كنند. لين اصر به ويثه در وظايف الا به دلیل ماهیت گسترده و پیچیده داده های زبان چللش
برانگیز است. تکنیکهای منظمسازی؛ مانند حذف تصادفى و كاهش وزن: مىتواندد براى کاهش بیش برازش استفاده شوند.
۷ ادازء مجموعه آموزشی و هربته-اشیه نوسی, جمع [وری سجموعه حلده های برچ گذاری شده بزرگ برای وظلیف ۱11۳ می نی کران و وق
كير باشد يه خصوص زماتى که حاشیه نویسی اتسالی موردثیاز است. دلدهای آموزشی محدوه میتولند عملکره مدلهای !۲۱۱۷ را مختل کند و هرى
بيجيدكى و تنوع كامل زبان را جالشبرانكيز كند.
برداختن به اين جالش ها اغلب شامل تركيبى از اصلاحات معمارى. تكنيك هاى منظم سازى. تنظيم دقیق هایپرپارامتر و روش های بهینه سازی
بيشرفته أست. تكنيك حلدى مانند برش كراديان» استرائؤى هلى مقداردهى اوليه وزنء و استفاده از جلسازى كلمات ازرييش آموزش دينه تيزمى تواتدد
به كاهش برخى از جالش ها در هنكام آموزش | الا!8] براى وظايف 8الا] كم كنند.
صفحه 140:
۲ مفهوم مدل های دنباله به دنباله چیست؟
مدلهای دنبلله به دنبلله (56012560) دستهای از شبکههای عصبی هستند که برای وظایفی استفاده میشوند که شامل تبدیل یک دنبلله ورودی به
یک دنباله خروجی است. این مدلها به ویژه در وظایفی مانند ترجمه ماشینی, خلاصه سازی متن: تولید گفتگو و تشخیص گفتار موثر هستند.
ایده اساسی پشت مدلهای ۹60/2560 استفاده از دو شبکه عصبی بازگشتی ۷۱۷/۷ است: یک رمزگذار ٩۸| و یک رمزکشا ل(۱٩. رمزگذار
دنبلله ورودی را پردازش می کند. معمولاً دنبلله ای با طول متغیر از نشلنه ها (به عنوان مثال. کلمات یا کاراکترها)» و آن راجه یک نملیش با طول ثلبت
به نام بردر زمینه یا برار فکر تبدیل می کند. بردار زمینه اطلاعات دنبله ورودی را محصور می کند و به عنوان یک نمایش فشرده از ورودی عمل می
کند.
رمزکشا ۴1 برازمینه رابهعنوان ورودی می کیرد وبا بيش بينى نشانه يعدى در دنبلله در هر مرحله زملنى: دنبلله خروجى را كام به كام وليف
می RNN Les yo, iS معمولاً با یک توکن خاص مقداردهی میشود که نشاندهنده شروع دنبلله است و نا زمانی که به یک نشانه پایان دنبلله خاص
يا حداكثر طول از بيش تعريفشده پرسد. توكنها را توليد مىكند.
صفحه 141:
OY ادامه...؟
در طول آموزش. مدل 5602560 برای به حداقل رساندن تفاوت بین دنباله خروجی پیشبینیشده و دنباله خروجی هدف آموزش داده میشود.
این کار معمولاً با استفاده از تکنیکی به نام معلم اجباری انجام می شود. که در آن دنباله هدف واقعی به عنوان ورودی به رمزگشا ۱ در طول
آموزش ارائه مى شود. در استنباط يا آزمون. مدل دنباله خروجى را يك توکن یکبار بر اساس پیشبینیهای قبلی خود تولید میکند.
مدلهای 602560 را میتوان با استفاده از انواع مختلف LSTM als RNN (حافظه کوناهسدت طولانی) یا 391 (واحد باز گشتی دروازهای)
پیادهسازی کرد. ۱۷/۷ های رمزگذار و رمزگشا می توانند چندین لایه داشته باشند و می توانتد دو جهته باشند که به اطلاعات اجازه می دهند در هر
دو جهت جلو و عقب جريان داشته باشند. این کار مدل را قادر می سازد تا زمینه و وابستگی های بیشتری را در دنباله ورودی درک کند.
مدل های ۹602560 زمینه "لا رابه میزان قلبل توجهی پیش برده و در کارهای مختلف موفق بوده اند. آنها عملکرد قلبل توجهی را در ترجمه
ماشینی نشان داده اند جایی که یک دنباله ورودی در یک زبان به دنباله خروجی در زبان دیگر تبدیل می شود. مدلهای 5602560 برای
خلاصهسازی متن نیز استفاده شدهاند. جایی که خلاصهای مختصر از اسناد یا مقالات طولانیتر ایجاد میکنند. علاوه بر این. مدلهای 5602560
در سیستمهای گفتگو و وظایف تشخیص گفتار برای تولید پاسخ یا رونویسی زیان گفتاری به متن نوشتاری استفاده شدهاد.
به طور کلی. مدلهای 56012560 در درک رابطه بین دنبلههای ورودی و خروجی موثر بوده و امکان تولید دنبله و قابلیتهای تبدیل قدرتمند.
یه
صفحه 142:
۲ چگونه می توان از مدل cle دنباله به دنباله در ترجمه ماشینی استفاده کرد؟
مدلهای دنبلله به دنبلله (6602560) به طور گسترده برای کارهای ترجمه ماشینی به کار گرفته شدهلند و پیشرفتهای قلبل توجهی را نسبت به
رویکردهای سنتی نشان ددهند. در اینجا تحوه استفاده از مدل های 56012560 در ترجمه ماشینی آورده شده استه
۱.آماده سازی داده ها: برای آموزش یک مدل ٩6012560 برای ترجمه ماشینی؛ یک پیکره موازی. متشکل از جفت جملات در زبان مبداً و ترجمه
های متناظر آنها در زبان مقصد مورد نیاز است. لین مجموعه داده به عنوان داده آموزشی عمل می کند. جایی که جملات زبان مبدأ دنيلله هاى ورودی
هستند و جملات زبان مقصد دنباله های خروجی هستند.
۲ معماری رمزگذار-رم زگشا: مدل 560/2560 از یک رمزگذار ٩۱| و یک رمزگشا RNN تشکیل شده است. رمزگذار جمله ورودی را در زبان
مبدأ بردازش مىكند و يك بردار زمينه با طول ثلبت توليد مىكند كه اطلاعات جمله مبدأ را محصور میکند. رمزگشا بردار زمیته را به عنوان ورودی
مى كيرد و جمله خروجى را در زبان مقصد. کلمه به کلمه تولید مى كند.
۲ جاسازی کلمات: برای نشان دادن کلمات در دنبلله ورودی و خروجی. استفاده از جاسازی کلمات رایج است. جاسازیهای کلمه. نمایشهای برداری
متراکمی از کلمات هستند كه اطلاعات معدليى و متنى را بهدست میآورند. لین اطلاعات را می توان از قمل روی مجموعه های بزرگ آموزش داد مابه
طور مشترک با مدل 5602560 در طول آموزش یاد گرفت.
۴.آموزش: در طول آموزش, کار مدل 56025600 به حداقل رساندن تفاوت بین دنبلله خروجی پیش بینی شده و دنله خروجی هدف بهینه شده
است. این کار معمولاً با استفاده از یک نوع تلیع زیان آنتروپی متقابل انجام می شود. این مدل با استفاده از معلم اجباری آموزش داده می شودء جابی که
دنل هدف واقمی به عنولن ورودی به رمزگشا 30] در هر مرحله زماتیآرکه می شود
صفحه 143:
۳ ادامه...؟
۵. استنتاج: پس از آموزش, می توان از مدل ٩602560 برای ترجمه با تولید دنبلله خروجی کلمه به کلمه استفاده کرد. در طول استنتاج؛ مدل يك
جمله زبان مبدأ رابه عنوان ورودی می گیرد آن را با رمزگذار پردازش می کند و از رمزگشا برای تولید جمله ترجمه شده در زبان مقصد استفاده می
کند. فرآیند رمزگشایی را می توان با استفاده از تکنیک هایی مانند جستجوی پرتو برای کشف چندین ترجمه ممکن انجام داد
۶مدیریت کلمات ناشتاخته: مدل های 560/2560 با کلمات خارج از واژگان (/060۷)) که در طول آموزش دیده نمی شوند» مبارزه می کنند. برای
مدیریت کلمات ناشناخته. تکنیکهایی مانند جایگزینی آنها با نشانههای خاص, استفاده از نمایشهای سطح کاراکتر یا استفاده از ابزارهای خارجی مانند
واحدهای زی رکلمه(مانند رمزگذاری جفت بایت یا 561۱]6]66|666) را میتوان به کار برد.
۷ مدیریت جملات طولانی: مدلهای 5602560 به دلیل حافظه محدود مدل و مشکل محوگرادیان میتوانند در مدیریت جملات بسیار طولانی با
مشکل مواجه شوند. تکنیکهلیی مانتد مکانیزمهای توجه. که به مدل اجازه میدهد در طول رمزگشلیی بر بخشهای مختلف جمله ورودی تمرکز کند.
میتواند به رفع این مشکل و بهبود کیفیت ترجمه برای جملات طولائی کمک کند.
مدلهای 5602560 نتایج چشمگیری را در ترجمه ماشینی نشان دادهلند و ترجمههای دقیق و روان بین زبانهای مختلف را ممکن میسازند. آنها
همچنین با تکنیک های پیشرفته مانند مکانیزم های توجه (به عنوان مثال, مدل محبوب ترانسفورمر) گسترش يافته اند تا کیفیت ترجمه را پیشتر
افزایش دهند و جملات طولائی تر را به طور موثرتر مدیریت کنند
صفحه 144:
۴ مفهوم مکانیزم های توجه در ٩۷1.8 را توضیح دهید.
نیزمهای توجه در بردازش زبان طبیعی (".أل) مکانیزمهلیی هستند که شبکههای عصبی را قادر میسازند تا بر روی بخشهای مختلف دنبلله ورودی
در طول پردازش دادههای متوللی تمرکز کنند. این مکانیزم ها به طور قلبل توجهی عملکرد وظلیف مختلف ا!. از جمله ترجمه ماشیتی: خلاصه سازی
متن» پاسخ به سوال و تجزیه و تحلیل احساسات را بهبود بخشیده اند
مکانیزم توجه به یک مدل اجازه می دهد تا به طور انتخابی به بخش های خاصی از دنبلله ورودی توجه کند و وزن یا اهمیت متفاوتی رابه بخش های
مختلف اختصاص دهد. مکانیزمهای توجه به جای تکیه بر وضعیت پنهان نهایی رمزگذاره ان توانایی را برای مدل فراهم میکتند که ارتباط یا اهمیت
مراحل زمانی یا کلمات مختلف را در دنباله ورودی در نظر بگیرد
در اینجا یک نمای کلی از نحوه عملکرد مکانیزم های توجه در سطح بالا آورده شده است:
۱ رمزگذار: دنباله ورودی توسط یک شبکه رمزگذار پردازش می شود که می تواند یک !۷ (مانند ایا (3)) یا یک مدل مبتنی بر
ترانسفورمر باشد. رمزگذار دنبلله ای از حللت های پتهان را تولید می کند. که در آن هر حللت پنهان یک مرحله زمانی یا کلمه خاص را در دنبلله ورودی
نشان می دهد.
أن مى
۲ امتبازات توجه: مکانیزم های توجه یک جزء اضافى به نام امتیازات توجه با وزن توجه را معرفی صی کنند. این |
ازها بر اساس حالت های پنهان
رمزكذار و بردار زمينه محاسبه مى شوند بردار زمينه به عنوان خلاصه يا نمایشی از حالات پتهان تولید شده توسط رمزگذار عمل می کند.
۳ وزن توجه: امتياز توجه معمولاً با محاسبه شباهت بين بردار زمينه و هر حالت بنهان رمزكذار به دست مى آيد. براى محاسبه اين شباهت مى توان از
روش هاى مختلفى استفاده کرد مانند ضرب داخلی. شباهت کسینوس یا تلبع سازگاری آموخته شده. سپس نمرات توجه برای به دست آوردن وزن های
توجه که مجموع آنها ۱ است. نرمال می شوند.
صفحه 145:
+ doll OF
۴ جمع وزنی: وزن توجه به حللت های پنهان رمزگذار اعمال می شود تا جمع وزنی محاسبه شود. که در ن هر حالت پنهان در وزن توجه متناظر آن
ضرب می شود. این جمع وزنی آغلب به عنوان بردار زمینه یا نمایش حضوری نامیده می شود.
۵ رمزگشاهبردار زمینه سپس به رمزگشا ارسال می شود که می تواند یک 1٩۱۷! با یک مدل مبتنی بر ترانسفورمر باشد. ومزگشا از بردارزمینه همرله با
حالت های پنهان خود برای تولید دنباله خروجی استفاده می کند و به بخش های مختلف دنباله ورودی بر اساس ارتباط یا اهمیت آنها توجه می کند.
مکانیزم توجه به مدل اجازه می دهد تا به صورت پویا بر روی قسمت های مختلف دنبلله ورودی در طول رمزگشایی تمرکز کند. با دادن توانلیی مدل
برای توجه به اطلاعات مربوطه. مکانیزمهای توجه میتوانند تواناییی مدل را برای گرفتن وابستگیهای طولانیمدت. مدیریت دنبالههای ورودی با
طولهای مختلف و تولید خروجیهای دقیقتر و روانتر بهبود بخشند.
یکی از اناع محبوب مکانیزم توجه. "توجه به خود" یا "توجه به محصول مقیاس شده" نامیده می شود که معمولا در مدل های میتنی بر ترانسفورمر
استفاده می شود. توجه به خود به هر کلمه یا نشانه در دنبلله ورودی اجازه می دهد تابه همه کلمات دیگر در یک دنبلله توجه کند و رولبط بین بخ
های مختلف دنباله را به تصویر بکشد.
به طور كلى: مکانیزمهای توجه به عنوان ابزار قدرتمندی NLP jo ثابت شدهاند که با ارائه توانایی به مدل برای تمرکز انتخابی بر روی اطلاعات مهم در
دنباله ورودی, عملکرد وظایف مختلف دنباله به دنباله را افزایش میدهند.
صفحه 146:
۵ چند معماری محبوب برای طبقه بندی متن نام ببرید.
چندین معماری محیوب برای طبقه بندی متن وجود دارد که در کارهای مختلف الا موفق بوده اند. در اینجا برخی از معماری های رایج مورد
استفاده توضیح داده می شوند:
۱ شبکه های عصبی کانولوشنال (/(2۱۷)): ((2۱) ها که در اصل برای پردازش تصویر طراحی شده لند. برای طبقه بندی متن نیز به کار میروند. در
طبقهبندی متن, کنولوشنهای ۱ بعدی روی متن ورودی اعمال میشوند تا الگوهای محلی و ترکیبهای ویژگی رابه تصویر بکشند. سپس خروجیهای
کانولوشن برای طبقهبندی به لايدهاى تمام متصل وارد میشوند. !62۱۷ ها در درک ویژگی های محلی. کارآمد و موثر هستند و در کارهایی مانند
تجزیه و تحلیل احساسات و طبقه بندی موضوعات موفق بوده اند
۲ شبکه های عصبی بازگشتی alail>) LSTM ajy as le RNN «RNN) کوتاه مدت طولانی) و oly) GRU باز گشتی دروازه دار)؛ به طور
گسترده ای برای کارهای طبقه بیدی متن استفاده هد اند. 30131] ها برای ثبت وابستگی های متوالی در متن با حفظ -افظه داخلی متاسب هستدد
آنها متن رابه صورت متوللی پردازش می کنند و اجازه می دهند اطلاعات از کلمات قبلی به کلمات بعدی منتقل شود. !1/1 ها در کارهایی مانند
تجزیه و تحلیل احساسات. طبقه بندی متن و شناسایی موجودیت نامدار موفق بوده اند
۳ ترانسفورمرها: ترانسفورمرها به عنوان یک معماری قدرتمند برای وظایف طبقهبندی متن ظاهر شدهاند. در درجه اول به دلیل موفقیت مدلهایی مانند
7 (نمایش رمزگذار دوطرفه ترانسفورمر). ترانسفورمرها برای درک روابط بین کلمات یا نشانه های مختلف در دنباله ورودی به مکانیزم های
خودتوجهی متکی هستند. آنها در درک وابستگی های دوربرد عالی هستند و در کارهایی مانند تجزیه و تحلیل احساسات. پاسخ به سؤال و استنتاج زبان
طبیعی به نتایج پیشرفته ای دست يافته اند
صفحه 147:
+ doll OO
ola Jus F سلسله مراتبی: مدل های سلسله مراتبی برای به تصویر کشیدن ساختار سلسله مراتبی متن طراحی شده لنده جلیی که اسناد از پاراگراف
هاء جملات و کلمات تشکیل شده اند. این مدلها متن را در سطوح مختلفی از جزئیات پردازش میکنند و امکان درک اطلاعات محلی و عموسی را
فراهم میکنند. معماری های سلسله مراتبی. مانند شبکه های توجه سلسله مراتبی (۳۱۵) و 151 های سلسله مراتبی. در کارهایی مانند طبقه
بتدی استاد و تجزیه و تحلیل احساسات در اسناد طولائی موفق بوده اند
۵ مدلهای جمعی: مدلهای جمعی, پیشبینیهای چند مدل پلیه را برای بهبود عملکرد طبقهیندی ترکیب میکنند. لین مدل را می توان با استفاده از
هر ترکیبی از معماری های ذکر شده در بالا ایجاد کرد. روشهای جمعی مانتد 0399109 يا 00059 میتوانند قدرت پیشبینی کلی و
توانایی تعمیم را افزایش دهند. یا ترکیب نقاط قوت چندین مدل. مدلهای جمعی اغلب به عملکرد بهتری نسبت به مدلهای جداگانه دست میبایند.
شایان ذکر است که انتخاب معماری به وظیفه خاص» مجموعه داده و متابع موجود بستگی دارد. آزمایش و تنظیم دقیق, اغلب برای تعیین بهترین
معماری برای یک مساله طبقه بتدی متن مورد نیاز است. علاوه بر این, مدلهای از پیش آموزشدیدهشده» MULMFIT & BERT. GPT sists
محبوبیت پیدا کردهاند.زیرا نمایشهای قدرتمندی را ارائه میدهند که میتوانند برای کارهای طبقهبندی متن خاص با دادههای برچسبگذاری شده
محدود بهخوبی تنظیم شوند
صفحه 148:
OF مفهوم تجزیه و تحلیل احساسات 9 NLP چیست؟
تجزیه و تحلیل احساسات. که به عنوان نظر کاوی نیز شناخته میشود. زیرشاخهای از پردازش زبان طبیعی (1!) است که هدف آن احساساتیا
نظرات بیان شده در یک متن خاس است. لین کار شامل استفلده از تکتیک های محاسیانی برای طبقه بندی خودکار احصساساته متن به عنوان مشستء منفی
با عتتی است.
مفهوم تجزیه و تحلیل احساسات حول درک و استخراج اطلاعات ذهنی از متن. مانند احساسات. نگرش هاء نظرات و ارزیلبی ها می چرخد. هدف تجزیه و
تحلیل احساسات ابراز شده توسط افراد نسبت به یک موضوع؛ محصول, خدمات یا رویداد خاص است.
در اینجا مروری بر فرآیند تجزیه و تحلیل احساسات آورده شده است:
.پیش پردازش متن: متن ورودی ابتدا برای حذف نهیز و اطلاعات نامربوط پیش پردازش می شود. لین کار ممکن است شامل مراحلی ماتند کوچک کردن
حروف. نشانهسازی (تقسیم کردن متن به کلمات یا نشانههای جداگلنه»,. حذف کلمات توقف (کلمات رایج "است" که کمک
زیادی به احساسات نمیکنند) و مدیریت خاص کاراکترها یا علائم نگارشی باشد.
۲طبقه بندی احساسات: هنگامی که متن از قبل پردازش شد. به دسته های احساسات طبقه بندی می شود. دستههای احساسات رایج مثیت؛ منفی و
خنثی هستند. اما برخی رویکردها از مقولههای دقیقتر یا حتی مقیاس احساسات پیوسته استفاده میکنند.
۳ استخراج ویژگی: برای طبقه بندی احساسات ویژگی های مرتبط از متن استخراج می شود. این ویژگیها ممکن است شامل کلمات. M-GPAM (دنبالة
پیوسته از 6 کلمه)» برچسبهای بخشی از گفتاره ساختارهای نحوی یا سیر ویژگیهای زبانی باشد که اطلاعات احساسی را در خود دارند. تکنیکهای
استخراج ویژگیها میتوانتد بر اساس رویکرد مورد استفاده متفاوت باشند. مانند کیسهی کلمات, ۰۲۴-1]0۴ جاسازیهای کلمه (مانند ۷۷۵۲۵2۷/6۰
6 يا نمایش های پیشرفتهتر واژهای ساختاربندی شده(مانند (BERT. GPT
صفحه 149:
OF ادامه...؟
۴. تکنیکهای تجزیه و تحلیل احساسات: تکنیکهای مختلفی را میتوان برای تجزیه و تحلیل احساسات به کار بردء از جمله روشهای مبتنی بر قانون.
الگوریتهای یادگیری ماشین Naive Bayes sl) ماشینهای بردار پشتیبان یا جنگلهای تصادفی). و اخير رویکردهای یادگیری عميق مانند
شبکههای عصبی بازگشتی (18 )یا مدل های مبتنی بر ترانسفورمر.روشهای مبتنی بر قانون برای تخصیص امتیزات احساسی به کلمات یا عبارات
به قوانین با وژگان دستساز متکی هستند, در حالی که مدلهای یادگیری ماشینی و یادگیری عمیق از دادههای آموزشی برچسبگذاری شده برای
طبقهبندی احساسات یاد میگیرند.
۵ ارزیایی و معیارهای عملکرد: عملکرد مدلهای تجزیه و تحلیل احساسات با استفاده از معیارهای مناسب مانند دقت. صحت. نرخ یادآوری. -۴1
6 یا سطح زیر منحنی مشخصه عملکرد گیرنده (۵()2-36067 بسته به نیازهای خاص ارزیلبی میشود. وظیفه ارزیلیی معمولاً روی مجموعه
دادههای برچس بگذاری شده انجام میشود. جایی که احساس متن قبلا توسط حاشیهنویسهای انسانی حاشیهتویسی شده است.
تجزیه و تحلیل احساسات کاربردهای عملی مختلقی دارد. از جمله نظارت بر رسانه های اجتماعی. مدیریت شهرت برند, تجزیه و تحلیل بازخورد
مشتری. تحقیقات بازار و سیستم های توصیه محور. لین کار بینش های ارزشمندی را در مورد افکار عمومی و گرلیش های احساسات ارلثه می دهد وبه
كسب و كارها و سازمان ها لين امکان را می دهد تا تصمیمات مبتتی بر ذاذه اتخاذ کنند و احساسات مشتری نسبت به محصولات یا خلمات خود را
درک کنند.
صفحه 150:
۷ چگونه می توان یادگیری عمیق را در تجزیه و تحلیل احساسات به کار برد؟
یادگیری عمیق به طور موفقیت آمیزی برای تجزیه و تحلیل احساسات به کار گرفته شده است وبه نتلیج پیشرفته ای در وظايف مختلف دست يافته
است. مدلهای یادگیری عمیق توانایی یادگیری خودکار نمایشهای سلسله مراتبی از دادههای متن خام. درک الگوها و وابستگیهای پیچیده را دارند
که آنها را رای تجزیه و تحلیل احساسات مناسب میسازد. در اینجا چند روش برای استفاده از یادگیری عمیق یرای تجزیه و تحلیل احساسات آورده
1. شبکه های عصبی کانولوشنال «CNN 6۷ هاء که در اصل برای پردازش تصویر طراحی شده اند برای طبقه بندی متنء از جمله تجزیه و
تحلیل احساسات. نیز به کار می روند. در این رویکرد.پیچیدگیهای ۱ بعدی بر روی ورودی متن اعمال میشوند تا الگوها و ویژگیهای محلی را به
تصویر بکشند. سپس خروجیهای کانولوشن برای طبقهبندی احساسات به لایههای تمام متصل وارد میشوند. 211) ها در یادگیری الگوهای محلی
کارآمد هستند و در وظایف تحلیل احساسات موفق بوده اند
۲ شبکه های عصبی بازگشتی (۷(۷(: LSTM agg ay slo RNN (حافظه کوناه مدت طولانی) و sole) GRU بازگشتی دروازه دار)؛ به طور
گسترده ای در تجزیه و تحلیل احساسات استفاده شده اند. [(۷(*] ها متن رابه صورت متوللی پردازش می کنند و وابستگی های زملنی بین کلمات را
ثبت می کنند. این شبکه ها قادر به درک وابستگی های دوربرد و اطلاعات متنی هستند. مدل های مبتنی بر RNN عملکرد قوی در وظایف طبقه
بندی احساسات نشان داده اند
۳مکانیزمهای توجه: مکائیزمهای توجه برای کارهای تجزیه و تحلیل احساسات به کار گرفته شده است تا توانایبی مدل را برای تمرکز بر کلمات یا
عبارات مهم در متن ورودی اقزایش دهد. مکانیزمهای توجه به مدل اجازه میدهند تا اهمیت کلمات مختلف یا بخشهایی از دنبلله ورودی را در طول
طبقهبندی به صورت پویا بسنجید. مدلهای مبتنی بر توجه با توجه به بخشهای آموزندهتر متن» عملکرد بهتری را در تحلیل احساسات نشان دادهاند.
صفحه 151:
۷ ادامه...؟
۴ مدلهای مبتنی بر ترادسفورمر: مدلهای ترانسفورمره منند 210 (نمایش رمزگذار دوطرفه ترانسفورمر) و انواع آن. تجزيه و تحليل احساسات و ساير
وظایف "!۱ را متحول کردهاند. ترانسفورمرها برای به تصویر کشیدن روابط بین کلمات در دنباله ورودی به مکانیزم های توجه-به-خود متکی هستند.
مدلهای ترانسفورمر از پیش آموزشدیده را میتوان بر روی وظایف تجزیه و تحلیل احساسات با دادههای برچسبگذاری شده تنظیم کرد وبه دلیل تونلیی
آنها در درک اطلاعات متنی و درک معنایی, به نتاب
پیشرفته دست یافت:
۵ یادگیری انتقالسی و مدلهای از پیش آموزشدیده: مدلهاییادگیری عمیسق آموزشدیده بر روی مجموعه دادههای مقیاس بزرگ و از بش
آموزشدیدهشده در وطلیف عمومی درک زبان میتوانند بای تجزیه و تحلیل احساسات مورد استفادهقرار گیرند با نتقال ویژگیهای آموختهشدهبه وظلیف
تجزيه و تحليل احساسات. مدلها مىتوانتد از دانش عمومی زبان رمزگذاریشده در مدلهای از پیش آموزشدیده بهره ببند ین رویکرد در بهبود عملکرد
طعسیی اعتلت موی با هت رت کتری شنم بسترم Jap Pe
۶ مدلهای جمعی و 611۳9 518 : مدلهای یادگیری عمیق را نیز میتوان از طریق تکنیکهای جمعی یا معماریهای 016719 513 برای بهبود عملکرد
تجريه و تعليل اعساسات تركيب كرد روشهاى جمعى: بيكربيتىهلى مدل هاى متعدد را براى تضميم كيرى نهايى تركيب ع ىكندد واز تدوع مدلهاى
Stacking aus. alate شامل آموزش جندين مدل و استفاده از مدل ديكرى براى يادكيرى نجوه تركيب بهترين بيش بينى هاى أتها سد
رويكردهاى يادكيرى عميق در تجزيه و تحليل احساسات نتليج قلبل توجهى را نشان داده لند وبه نتليح بيشرفته اى دست يافته اند با لین حال. توجه به لين
نکته مهم است که موفقیت مدلهای یادگیری عميق اغلب به در دسترس بودن مجموعه دادههای برچسبدار بزرگ و منابع محاسباتى كافى براى آموزش اين
مدلهای پیچیده بستگی دارد.
صفحه 152:
۸ مفهوم مدل های مولد در بادگیری عمیق را توضیح دهید.
مدلهای مولد در یادگیری عمیق, مدلهایی هستند که برایتولید نمونههای جدید طراحی شداند که شبیه به دادههای آموزشی هستند که بر روی
آنها آموزش دیدهاند لین مدلها توزیع احتمال اساسی دادههای آموزشی را باد میگيرند و سپس از آن دلنش برای تولید نمونههای جدیدی که شبیه
دادههای اصلی هستند استفاده میکنند.
هدف مدلهای مولد ین است که الگوها و ساختار موجود در دادههای آموزشی رابه تصویر بکشند وبه آنها اجازه دهند نمونههای جدیدی تولید کنند
که ویدگیهای متابهی دارند. اين مدل ها به ويزه در کارهایی مانند سنتز تصویره تولید متن» سنتر گفتار و داده اقزایی مقید هستند,
دو نوع اصلی از مدل های مولد در یادگیری عمیق وجود درد
۱. رمزگذارهای خودکار متغیر (۷//۸25): ۷/۸۶ ها مدل های تولیدی هستند که مفاهیم رمزگذار خودکار و استنتاج تغییرات را ترکیب می کنند.
رمزگذارهای خودکار از یک شبکه رمزگذار تشکیل شده لند که داده های ورودی را در یک فضای پنهان با ابعاد پایین تر ترسیم می کند و یک شبکه
رمزکشا که داده های اصلی را از فضای پنهان بازسازی مى كند. ۵۴//ها مدلسازی احتمالی را با فرض اینکه متفیرهای پنهان از یک توزیع خاص
پیروی میکنند, معمولاً یک توزیع گاوسی معرفی میکنند. با آموزش ۷/۵ برای رمزگذاری و رمزگشایی داده ها توزيع زيربنليى داده هاى آموزشى را
ياد مى گیرد و به آن اجازه می دهد نمونه های جدیدی از توزیع آموخته شده توليد كند.
صفحه 153:
۸ ادامه....
۲ شبکه های مولد تخاصمی GAN) 3/۸(۷) ها مدل های مولد هستند که از دو شبکه عصبی تشکیل شده اند: یک شبکه مولد و یک شبکه
متمايزكر. شبكه مولد نمونه هاى مصنوعی تولید می کند. در حللی که شبکه متمایزگر سمی می کند بین نمونه های واقعی و مصنوعی تمليز قلئل ث
شبکه های مولد و متمایزگر با هم به شیوه ای رقابتی آموزش می بینند. هدف مولد تولید نمونه هایی است که از نمونه های واقمی قابل تشخیص
نیستند. در حللی که هدف متمایزگر طبقه بندی صحبح نمونه های واقمی و مصنوعی ااست. از طریق لین فرآیند آموزش خصمانه. ملد به تدریج تونلیی
خود را برای تولید نمونه های واقعی بهبود می بخشد.
هر دو مدل ۷۸۹۴ و LU GAN قوت و ضعف خود را دارند. ۷/۸۴ ها تمایل به تولید خروجی های متنوع تری دارند و مدل سازی احتمالی صریح
توزیع داده ها را ارائه می دهند. از سوی دیگر. go Lo GAN توانند نمونه های بسیارواقعی تولید کنند اما به طور صریح توزیع احتمال را مدل نمى
as
مدل های مولد کربردهای متعددی از جمله توليد تصوير. تولید ویدوه تولید متن و سنتز داده ه درند. ین مدلهابرای ایجاد تصاوير واقعى. تولید متن
خلاقانه. تولید داده های مصنوعی برای داده افزایی؛ و حتی در ایجاد ویدیوهای دیپ فیک استفاده شده اند.
به طور كلى. مدلهاى مولد در يادكيرى عمیق, فرصتهای جدیدی را بای ایجاد نمونههای مصنوعی شبیه دادههای آموزشی باز کردهاند و تولید
خروجیهای جدید و واقعی را در حوزههای مختلف ممکن میسازند.
صفحه 154:
٩ چند مدل مولد محبوب را نام ببرید.
چندین مدل مولد محبوب وجود دارد که توجه قلبل توجهی رایه خود جلب کرده و نتلیج چشمگیری در حوزه های مختلف به دست آورده اند. در اینجا
برخی از مدل های مولد شناخته شده آورده شده است:
۱ رمزگذارهای خودکار متفیر (۷//25): ۷/۵۸۴ ها مدل های مولد پرکاربرد هستند. آنها مفاهیم رمزگذارهای خودکار و استنتاج تغییرات را ترکیب می
کنند. ۷۸۹۶ ها در تولید تصاویر واقعی مانند تولید تصاویر جدید از چهره هاء ارفام و اشیاء موفق بوده اند. نمونه هایی از مدل های مبتنی بر ۷۸۴
عبارتند از [2)63۸01] (شبکه متخاصم مولد عمیق) و VQ-VAE (Vector Quantized Variational Autoencoder)
۲ شبکه های مولد تخاصمی (3/۵(5)): 3/۵) ها محبوبیت فوق العاده ای در زمینه مدل سازی مولد به دست آورده اند. Se fold Lo GAN شبکه
مولد ويك شبكه متمايزكر هستند كه با يكديكر رقلبت مى كنند. 61 ها نتليج قلبل توجهی در تولید تصاویره متن و حتی موسیقی به دست آورده
ند. برخی از مدل های قابل توجه مبتنی بر 2/1 عبارتند از ProGAN , DCGAN. CycleGAN. StyleGAN
۳ مدل های مولد مبتنی بر ترانسفورمر: ترانسفورمرها که در ابتدابرای وظلیف دتبلله ای معرفی شدند. برای مدل سازی میلد نیز به کار گرفته شدند.
مدلهایی مانند 3۲) (ترانسفورمر از پیش آموزشدیده مولد) و 31-2 توانایی تولید متن منسجم و مرتبط با متن را نشان دادهاند. آنها برای
کارهایی مانند تولید متن, سیستم های گفتگو و ترجمه زبان استفاده شده اند
صفحه 155:
٩ ادامه....
PIXEIRNN , PixelRNN: PixeICNN , PixelCNN + مدل های مولدی هستند که تصاویر را پیکسل به پیکسل تولید می کنند.آنها
توزیع احتمال شرطی هر پیکسل را با توجه به پیکسل های اطراف آنن مدل می كنند. اين مدل ها به نتايج جشمكيرى در توليد تصاوير با وضوح بالا
دست يافته اند.
۵. ماشین های عمیق بولتزسن (080): 2081 ها مدل های مولد هستند که ساختار لایه ای عمیق از واحدهای تصادفی دارند. این مدلها برای
یادگیری بدون نظارت استفاده شده اند و نتایج امیدوارکننده ای را در تولید تصاویر واقمی و مدل سازی توزیع های پیچیده نشان داده اند.
۶ رمزگذارهای خودکار متخاصم (۵/5): ۵/ها عناصر ۷۸۵۴ و GAN را ترکیب می کنند تا یک نملیش نهفته از توزیع داده ها را بیاموزند. آنها
علاوه بر زیان بزسازی رمزگذار خودکار. یک زیان خصمانه را نیز شامل می شوند که امکان کنترل بهتر بر روی نمونه های تولید شده را فراهم می کند.
۷ مدلهای مبتنی بر جریان: مدلهای میتنی بر جریان. مانند استنتاج متغیر با جریانهای عادی (02۶ال) و ۹6۵3۱۱۷۷۴ (حفظ حجم با ارزش
a و ee a
تصاویر و مدلسازی توزیعهای پیچیده داده. نشان دادند
نها تنها چند نمونه از مدل های مولد محبوب هستند. زمینه مدلسازی مولد. agg و به سرعت در حال تکامل است و مدلها و
دتم در حال ظهوو هستند. هر مدل تقاط قوت و شعف خود رز دار و تخاب مذل مولد به وظیفه خاص, نوع دده و کیفیت خروجی مورد نظر مستگی
ois
رفتهای جدید
صفحه 156:
Fe مفهوم یادگیری تقویتی چیست؟
یادگیری تقویتی (۴) شاخه ای از یادگیری ماشین است که با یادگیری سیاست های تصمیم گیری بهینه از طریق تعامل با یک محیط مرتبط است. از
روشی که انسان ها و حیوانات از بازخوردها و پاداش ها یاد می گیرند به منظور به حداکثر رساندن پاداش های تجمعی درازمدت الهام گرفته شده است.
در یادگیری تقویتی. یک عامل یاد می گیرد که در یک محیط تصمیمات متوالی بگیرد تا مفهوم پاداش تجمعی را به حداکثر برساند. عامل با انجام
اقداملتی با محیط در تعامل است و محیط با بازخورد در قللب پاداش یا جریمه پاسخ می دهد. هدف عامل لین است که سیاست بهینه را بیاموز
برداری از وضعیت ها به اقدامات - که پاداش تجمعی مورد انتظار را در طول زمان به حداکثر می رساند.
انقشه
عناصر كليدى يادكيرى تقويتى عبارتند از
.١ عامل: موجودى كه با محيط در تعامل است و از آن درس می گیرد. عامل بر اساس وضعیت فعلی خود اقداماتی را انجام می دهد و پاداش یا جریمه
هایی را به عنوان بازخورد دریافت مى کند.
۲ محیط: سیستم یا دنیای بیرونی که عامل در ن فعالیت می کند. این عنصر می تواند هر سیستم شبيه سازى شده يا دنياى واقعى با وضعيت هاء
اقدامات و پاداش ها باشد.
۳ حالت: حالت بیانگر وضعیت یا پیکریندی فعلی محیط است. معمولاً به عنوان یک مشاهده با مجموعه ای از متفیرهای مشاهده شده نشان داده می
شود.
۴ عمل: عمل تصمیمی است که غامل در پاسخ به حللت مشاهده شده اتخاذ می کند. اقدامات می تولند پیامدهای کوتاه مدت داشته باشد و بر وضمیت
های بعدی تأثیر بگذارد.
صفحه 157:
۰ ادامه..؟
۵. پاداش: پاداش یک سیگنال بازخورد اسکالر است که توسط محیط پس از انجام یک عمل به عامل ارائه می شود. نشان دهنده مطلوبیت یا کیفیت
اقدام انجام شده در راستای دستیایی به اهداف عامل است.
۶ سیاست: سیاست. استراتی با رفتاری است که عامل برای اتتخاب اقداماتی که یک حللت داده می شود دفیال می کند. وضمیت ها را یه اقدامات
ترسیم می کند و فرآیند تصمیم گیری عامل را هدایت می کند
۷ تبع ارزش: تبع ارزش پاداش تجمعی موردانتظاری که یک عامل می توند از یک جفت حللت یا حالت-عمل خاص به دست آورد را تخمین می زند
این عمل به ارزیابی کیفیت حالات یا اقدامات مختلف کمک می کند و قرآیند یادگیری عامل را هدایت می کند.
لگوریتم های یادگیری تقویتی از بازخورد دریانتی در قالب پاداش برای به روز رسانی سیاست عامل و بهبود تصمیم گیری در طول زمان استفاده می
كنتد. اين كار معمولاً با استفاده از روشهایی مانتد یادگیری (). روشهای مونت کارلو» یادگیری تفاوت زملنی یا یادگیری تقویتی عمیق با شبکههای
عصبی انجام میشود.
یادگیری تقویتی در حوزه های مختلفی از جمله روباتیک, بازی, وسايل نقليه خودران. سيستم هاى توصيه و مديريت متابع وغيره كاريرد بيدا كرده
است. با يادكيرى از آزمون و خطاء يادكيرى تقويتى عوامل را قادر مى سازد تا استراتزى هاى بهينه را در محيط هاى بيجيده و نامطمئن بيابند.
صفحه 158:
۱ چگونه می توان یادگیری عمیق را با یادگیری تقویتی ترکیب کرد؟
یادگیری عمیق را می توان با یادگیری تقویتی ترکیب کر تا قابلیت های عوامل 181 را در مديريت محيط هاى بيجيده وما ابعاد بالا افزليش دهد. لین
ترکیب یه عنوان یادگیری عمیق (01) شناخته می شود. -21*1] از قدرت یادگیری ویژگیهای شبکههای عصبی عمیق برای مدیرست
ورودیهای حسی خام. استخراج ویژگیهای مفید و تصمیمگیری آگاهانه استفاده میکند.
در اينجا مؤلفه ها و رویکردهای کلیدی مورد استفاده در ترکیب یادگیری عمیق با یادگیری تقویتی آورده شده است:
))2۱(!( شبکه های عصبی عمیق. معمولاً شبکه های عصبی کانولوشن || Deep Q-Networks (DQN): Deep Q-Networks.\
برای تقریب تلبع ارزش عمل (عملکرد (6) در یادگیری () استفاده می کند. شبکه عمیق وضعیت فعلی را به عنوان ورودی می گیرد و مقادیر 6۵ را برای
تمام اقدامات ممکن خروجی می دهد. /00] با موفقیت در بازی هایی مانند ۸3۲ اعمال شده است. جایی که از داده های پیکسل خام به عنوان
ورودی استفاده می شود.
۲ روش های گرادیان سیاست: به جای تخمین مقادیر 64 روش های گرادیان سیاست مستقیماً تابع سیاست را بهینه می کنند. شبکه های عصبی
عمیق. که آغلببه عنولن شبکه های سیاست نامیده می شهنده برای پاراسترسازی سیاست استفاده می شوند. شبکه حللت فعلی رابه عتوان ورودی می
گیرد و احتمال انتخاب اقدامات مختلف را خروجی می دهد. الگوریتمهای یادگیری تقویتی مانند ٩۴۱۱۱۴0 يا ۴۵۱۱6۷ ۳۳۵۶۱۳۵۱
(580) 00811۳12۵110۳ را میتوان با شبکههای عمیق برای یادگیری سياستها برای کارهای پیچیده استفاده کرد
صفحه 159:
۶۱ ادامه..؟
؟. روشهاى عامل-نقاد: روشهاى عامل-نقاد. مزاياى هر دو رويكرد ارزشمحور و سیاستمحور رایا هم ترکیب میکنند. نها دو شبکه را حفظ می کنند
- یک شبکه عامل که اقدامات را بر اساس سیاست انتخاب مي کند و یک شبکه نقاد که تلبع ارزش را تخمین می زند. شبکه عامل با استفاده از روش
های گرادیان سیاست به روز می شود در حللی که شبکه نقاد با استفاده از وش های یادگیری ۲0 یا مونت کارلوبه روز می شود. شیکههای عصبی
عمیق را میتون بهعنوانتقریب کننده عملکرد هم برای شبکههای عامل و هم بای شبکههای نقاد استفاده كرد
۴ یادگیری نقویتی مبتنی بر مدل: یادگیری عمیق را می توان برای یادگیری پویایی یا مدل انتقال محیط در یادگیری تقویتی مبتنی بر مدل استفاده
کرد. سپس می توان از مدل آموخته شده برای برنامه ریزی و تصمیم گیری استفاده کرد. شبکه های عصبی عمیق را می توان برای تقریب تلبع انتقال
حالت یا تابع پاداش استفاده کرد و به عامل اجازه می دهد تا ستاریوهای احتمالی را شبیه سازی و کشف کند.
۵ یادگیری نقویتی سلسله مراتبی:یادگیری عمیق می تواند يادكيرى سياست هاى سلسله مراتبی را فعال کند. جایی که سیاست های سطح بالات
یادگیری سیاست های سطح پایین را هدلیت می کنند. شبکه های عصبی عمیق را می توان برای مدل سازی ساختار سلسله مراتبی و یادگیری ویژگی
در سطوح مختلف انتزاع. بهبود کارایی و مقیاس پذیری الگوریتم های ٩ استفاده کرد.
یادگیری تقویتی عمیق نتایج قابل توجهی در حوزه های مختلف از جمله بازی.روبتیک رانندگی مستقل و پردازش زبان طبیعی به دست آورده است. با
لین حال. آموزش مدلهای عمیق ٩ میتواند به دلیل نیازهای محاسباتی بالا و نیا به مبادلات دقیق اکتشاف و بهرمبرداری چالشبرانگیز باشد. با لین
وجود. allay DRL یادگیری مستقیم از ورودیهای حسی خام. مدیریت دادههای پیچیده و بدون ساختار و دستیابی به عملکرد در سطح انسانی در
وظایف چالش برانگیز را تشان داده است.
صفحه 160:
۲ مفهوم گرادیان سپاست را توضیح دهید.
گرادیان های سیاست دسته jl gl الگوریتم های یادگیری تقویتی هستند که به طور مستقیم تلبع سیاست را برای یادگیری سیاست های تصمیم گیری
بهینه ,بهینه می کنند. برخلاف روشهای مبتنی بر ارزش که تابع ارزش-عمل یا تبع ارزش-حالت را تخمین میزنند.روشهای گرادیان سیاست بر
بهینهسازی مستقیم پارامترهای سیاست برای به حداکثر رساندن پاداش تجمعی مورد انتظار تمركز میکنند.
سیاست در یادگیری تقویتی به استراتژی یا رفتاری اطلاق می شود که عامل برای انتخاب اقداماتی که یک حالت داده می شود دنبال می کند. در
روشهای گرادیان سیاست: یک سیاست پارامتری شده توسط یک تقریبکننده تلبم. اغلب یک شبکه عصبی عمیق, نشان داده میشود که حللت رابه
عنوان ورودی میگیرد و احتمالات انتخاب اقدامات مختلف را خروجی میدهد. پارامترهای شبکه سیاست به طور مکرر به روز می شوند تا عملکرد
سياست بهبود يابد.
هدف روش هاى كراديان سياست يافتن سياست بهينه اى است كه باداش تجمعى مورد انتظار را در طول زمان به حداكثر مى رساند. لين كار معمولاً از
طروق GSI سمودی به دست مییده جانی که بلرلمترهاق شيكة بسياست مر حيت كراد
يك تابع هدف. كه اغلب به عتوان كراديان سياست
ناميده مى شودء به روز می شوند. تلبع هدف مورد استفاده در روشهای گرادیان سیاست معمولاً بر اساس پاداش تجمعی مورد انتظار است که با عواملی
مانند مزايا یا احتمالات. وزنگذاری میشود.
صفحه 161:
۲ ادامه....
مراحل کلیدی درگیر در روش های گرادیان سیاست به شرح زیر
۱. مسیرهای جمع آوری: عامل با پیروی از سیاست جاری و جمع آوری مسیرها که دنبلله ای از حللت ها اقدامات و پاداش ها هستند. با محیط تعامل
می کند. در طول هر مرحله زمانی» عامل با استفاده از شبکه سیاست. اقدامی را بر اساس وضعیت فعلی انتخاب میکند.
۲. محاسبه بازده یا مزیت: بازده . پاداش تجمعی است که از یک دنبلله اقدام حللت خاص به دست میآید. که نشان میدهد عملکرد چقدر خوب بوده
است. از طرف دیگره مزیت را می توان محاسبه کرد که نشان می دهد یک عمل چقدر بهتر یا بدتر از میانگین پاداش مورد انتظار در آن حالت است.
۲محاسبه گرادیان سیاست: گرادیان سیاست بر اساس مسیرهای جمع آوری شده و بازده یا مزلیا محاسبه می شود. گرادیان تخمینی است از چگونگی
تغییر پارامترهای شبکه سیاست یرای افزایش پاداش تجمعی مورد انتظار. گرادیان معمولاً از طریق روش هایی مانند تخمین نسبت درستنمایی یا
برآوردگر تابع امتیاز به دست می آید.
؟: به روز رسانى بارامترهاى سياست: بارامترهاى شبكه سياست يا استفاده از كراديان سياست به روز مى شوند. مرحلهبهروزرسانی. پارمترها را در جهتی
تنظيم مىكند كه باداش تجمعى مورد انتظار را افزايش مىدهد. لين كار معمولاً از طريق كراديان صعودى تصادفى يا ساير تكنيكهاى بهينةسازى انجام
میشود.
صفحه 162:
۲ ادامه....
هد تكرار: فرآيند جمع آورى مسيرهاء محاسبه كراديان ها و به روز رسانى بارامترهاى سياست به طور مكرر تكرار مى شود. عامل ale a با محیط, جمع
آوری تجربیات جدید و به روز رسانى شبكه سياست يراى بهبود عملكرد خود در طول زمان ادامه مى دهد.
روشهلى كراديان سياست جندين مزيت مانند توانايى مديريت فضاهاى كنش بيوسته. بهينهسازى مستقيم سياست. و بتانسيل مديريت داددهاى
ورودى ا ابعاد بالا از طريق شبكدهاى عصبى عميق را ارلئه مىدهند. آنها با موفقيت در طيف كسترده اى از وظليف يادكيرى تقوبتى. از جمله روباتيكه
بازی کردن, و سیستم های کنترل اعمال شده اند
با این حال. روشهای گرادیان سیاست آموزشی میتونند به دلیل وریانس بالای تخمینهای گرادیان و یز بهمبادلات دقیق اکتشاف و بهرمبرداری
چالشبرانگیزباشند. تکنیکهای مختلفی مانند تولبع پایه. شکلدهی پاداش, و منظمسازی آنتروپی: براى بهبود يايدارى و هم كرايى روشهاى گرادیان
سیاست استفاده میشوند.
صفحه 163:
۳ چالشهای موجود در آموزش عوامل یادگیری تقوبتی با استفاده از بادگیری عمیق چیست؟
آموزش عوامل یادگیری تقویتی RL) با ستفاده از یادگیری عمیق می تواند چندین چالش را ایجاد کند. این چالشها به دلیل ترکیبی از پیچیدگی
وظایف Sy clad RL حالت و عمل و شبکههای عصبی عمیق درگیر به وجود میآیند. برخی از چالش های کلیدی در آموزش عوامل ]٩1- با استفاده
از یادگیری عمیق عبارتند از
۱ کارلیی نمونه: الگوریتم های ٩1 اغلب به تعداد زیادی تعامل با محیط برای یادگیری سیاست های بهینه نیاز دارند. الگوریتمهای عمیق ٩ بهویه.
میتوانند از نظر نمونه ناکارآمد باشند. زیرا آموزش شبکههای عصبی عمیق با دادههای محدود میتولند منجر به بیش برازش شود. جمع آوری داده های
کافی برای آموزش مدل های -*] عمیق می توائد زمان بر و از نظر محاسباتى كران باشد.
۲ تعادل اکتشاف و بهره برداری: عوامل ٩ نیاز به كاوش در محيط دارند ا استراتزى ها و اقدامات جديدى را کشف کنند که می تولندبه پاداش های
بالتر منجر شود. ایجاد تعادل بین اکتشاف و بهره برداری بسیار مهم است. زيرا عوامل نبايد در سياست هاى غيربهينه كير کنند. مدلهای Sere RL
ممکن است یرای کاوش موثر مشکل داشته باشند. زیرا این سیاست میتواند به دلیل فضاهای عملی يا ابعاد بالا و پیچیده در بهینه محلى كير كند.
۲تخصیص اعتبار: عوامل 1 با چالش نسبت دادن اعتبار یا سرزنش به اقدامات انجام شده در دنباله ای از وضعیت ها و اقدامات روبرو هستند.
الگوریتمهای ٩1 عمیق باید به درستی باداشها با جریمههای دریففتی را به اقاماتی که منجر به ی تتایج شله است نسبت هند ان مفکل
تخصیص اعتبار با افق هاى زمانى طولانی و پاداش های تاخیری چالش برانگیزتر می شود
صفحه 164:
۳ ادامه...؟
۴ شکلدهی پاداش و پاداشهای پراکنده: در بسیاری از وظایف -. پاداشها ممکن است پراکنده باشند. به این معنی که عامل فقط به ندرت بازخورد
دریلفت میکند. پاداشهای پراکنده میتوانند یادگیری را چالشبرانگیزتر کنند. زیرا ممکن است عامل برای درک اينكه كدام اقدامات منجر يه نتليج مثبت يا
منفى شده است. دچار مشکل شود تکنیکهای شکلدهی پادلش و طراحی ساختارهای پاذاش مناسب برای هدایت موتر فرآیند یلدگیری» ضرورى هستند.
ال. بويليى غير ايستابى و محيط: محيط RL مى تولند بوياى غير ايستايى را نشان دهد.به لين معنى كه سياست بهينه ممكن است در طول زمان تغيير كند.
الكوريتم هاى Sane RL بايد يا جنين تفیبراتی سازگار شوند و به طور مداوم سیاست را به روز کنند. عامل بین عامل و محیط همچنین می تولند چللش
هایی مانتد مشاهده پذیری جزثی, تصادفی و دینامیک وابسته به زمان را ایجاد کند.
بیش برازش و تعمیم: شبکه های عصبى عميق مورد استفاده در RL می توانند مستعد بیش برازش شهند به خصوص زملنی که دلده های آموزشی محدود.
أست. بيش برازش مى تولئد منجربه تعميم ضعيف شود جابى كه سياست أموخته شده بر روی نانه های آمورسی به عوی عما مى كند اما در تعميم يه
عرقعيت على ناديده ناكلم است. تكبيك هابى مائند منظم سازى حاده افزابى و بلدكيرى انتقاقى براى بيبود تعميم در ]٩1 عديق استفاده مى شود
/. بيجيدكى محاسباتى: روش هاى .81] عميق مى توانند از نظر محاسباتى كران باشند وبه منابع محاسباتى قلبل توجهى نياز داشته باشند. آموزش شبكه
هاى عصبى عميق با وظايف RL 9 مقياس بزرىك مى تواند زمان بر باشد و ممكن است به محاسبات توزيع شده يا سخت افزار تخصصى نياز داشته باشد.
برداختن به اين جالش ها اغلب به تركيبى از بيشرفت هاى الكوريتمى. معمارى شبكه هوشمند. استراتؤى هاى اكتشاف و مهندسى ياداش موثر نياز دارد.
تحقيقات و بيشرفتهاى مداوم در زمينه 141 عميق با هدف مقابله با بين جالشها و امكان RL Lule gal كه مىتواندد وظايف بيجيده و واقعبينانه را
الك عد لحا ye
صفحه 165:
۴ مفهوم یادگیری خود نظارتی در یادگیری عمیق چیست؟
یادگیری خود نظارتی تکنیکی در یادگیری عمیق است که در ن یک مدل نمایش یا ویژگیها را از ددههای بدون برچسب بدون نیازبه برچسبهای
صریح تولید شده توسط انسان میآموزد. از ساختار یا الگوهای ذاتی در داده ها برای ایجاد وظایف جانشین استفاده می کند که فرآیند یادگیری را
هدایت می کند. با يادكيرى از مقادير زيادى از دده های بدون برچسب, هدف یادگیری خود نظارتی به دست آوردن ویژگی های مفیدی است که می
تواند سپس به وظایف تحت نظارت پایین دستی منتقل شود.
ایده کلیدی در پشت یادگیری خود نظارتی. طراحی وظایف بهانهای است که به عنوان وظایف کمکی نیز شتاخته میشود. که به مدل نیاز درد تا
بخشهای خاصی از دادههای ورودی را پیشبینی یا بازسازی کند. این وظایف بهانه با اعمال تبدیل یا تفییر به داده های بدون برچسب و استفاده از داده
های اصلی به عنوان هدف یا مرجع ایجاد می شوند. سپس مدل یاد میگیرد که اطلاعات مربوطه در دادهها را در نمایشهای خود رمزگذاری کند تا کار
بهانای را به طور مؤثر انجام دهد.
برخی از تکنیک هاى رايج مورد استفاده در یادگیری خود نظارتی عبارتد از
۱. رمزگذارهای خودکار: رمزگذارهای خودکار .مدل های شبکه عصبی هستند که هدف آنها بازسازی داده های ورودی از یک ویژگی فشرده است. آنها از
یک رمزگنار تشکیل شدهاند که دادههای ورودی را به یک فضای پنهان با ابعاد پایینتر نگاشت میکند و یک رمزگشا که ورودی را از نمایش پنهان
بازسازی میکند. با آموزش رمزگذار خودکار بر روی داده های بدون برچسب. مدل یاد می گیرد که ویژگی ها یا الگوهای برجسته در داده ها را درک
کند.
صفحه 166:
۴ ادامه..؟
۲ یادگیری متضاد: یادگیری متضاد شامل یادگیری ویژگی بابه حداکثر رساندن شباهت بین جفت های متبت (مثال های مشلبه) وبه حداقل رساندن
شباهت بین جقت های متفی (مثال های غیر مشلبه) است. با ایجاد جفت نسخه های افزوده شده از نقطه داده یکسان و تضاد آنها با نسخه های
شده سایر نقاط داده مدل ياد مى كيرد كه نمونه های مشابه را نزدیکتر در فضای ویژگی های آموخته شده جاسازی کند.
۲پیشبینی زملنی یا مکلنی: در لین رویکرد. مدل برای پیشبینی آینده یا بخشهای گمشده یک دنبلله يا تصوير آموزش داده مىشود. به عنوان مثال» با
توجه به دنباله ای از فریم ها در يك ويديو. مى توان مدل را براى بيش بینی فریم بعدی آموزش داد. با یادگیری پیشبینی ساختارزمانی یا مکانی
نادههاء مدل تمایشقای معناداری را بادست میآورد.
یادگیری خود نظارتی به ویه در سناریوهایی مقید است که داده های برچسب گذاری شده کمیاب یا گران است. با استفاده از مقادیر زیادی از دادههای
بدون برچسب در دسترس, یادگیری خود نظارتی میتوند به پیشآموزش شبکههای عصبی عمیق و مقداردهی اولیه آنها با ویژگیهای مفید کمک
کند. سپس این مدلهای از پیش آموزشدیده را میوان بر روی مجموعه دادههای برچسب گذاریشده کوچکتر برای وظلیف نظارتشده خاص تنظیم
كرد که منجر به بهبود عملکرد و همگرایی سریعتر میشود.
یادگیری خود نظارتی نتایج امیدوارکنندهای را در حوزههای مختلف از جمله بینایی کامپیوتر: پردازش زبان طبیعی و تشخیص گفتار نشان داده است.
یادگیری ویژگیهای قدرتمند از دادههای بدون برچسب فراوان. یادگیری انتقللی را تسهیل میکند و یادگیری را در بسیاری از وظلیف یادگیری ماشیتی
یادگیری ویژگیهای قدرتمند از دادهها: فراوان. یادگیری انتقللی را تسهیل میکند و یادگیری را در بسیاری از وظلیف یادگیری ما
|
صفحه 167:
FO بادگیری خود نظارتی چگونه به آموزش مدل های یادگیری عمیق با داده های برچسب گذاری
شده محدود کمک می کند؟
زمانى كه داده هاى برجسب كذارى شده محدود هستند.یادگیری خود نظارتی نقش مهمی در آموزش مدل های یادگیری عمیق ایفا مى كند. ان
چالش با استفاده از مقادیر زیادی از داده های بدون برچسب برای یادگیری ویژگی های مفید. به چالش کمبود داده می پردازد. در اینجا نشان داده شده
است که چگونه بادگیری خود نظارتی به آموزش مدل های یادگیری عمیق با داده های برچسب گذاری شلم محدود کمک می کنده
۱ پیشآموزش با دادههای بدون برچسب: یادگیری خود نظارتی به مدلها اجازه میدهد تا در مجموعه دادههای بدون برچسب در مقیاس بزرگ از قبل
آموزش داده شوند. در طول لین مرحله پیشآموزشی, مدل یاد میگیرد که ویژگیها و الگوهای معنیداری را در دادهابدون نیاز یه برچسبهای صریح
درک کند. با استفاده از دادههای بدون برچسب فراوان. مدل میتولند نمایش های قلبل تعمیمی را به دست آورد که اطلاعات مفیدی را در مورد دامنه
داده رمزگذاری میکند.
۲ آموزش انتقللی: پس از پیشآموزش با یادگیری خود نظارتی. میتوان از مدل پیشآموزششده بهعنوان نقطه شروعی برای وظایف نظارتشده خاص
استفاده کرد. تمایشهای آموختهشده از یادگیری خود نظارتی ویژگیهای سطح بالا و اطلاعات معنایی را به تصویر می کشد که میتواند برای طیف
&
وسیمی از وظایف پاییندستی مفيد باشد با انتقال وزن هاى از بيش آموزش داده شده به وظيفه هدفه مدل مى تواند خود را با مجموعه خوبی از
هاى اوليه. مقداردهى اوليه كند و نياز به آموزش نظارتى كسترده را از ابتدا كاهش دهد.
۳. استخراج ویژگینویژگی های آموخته شده از یادگیری خود نظارتی می تواند به عنوان استخراج کننده ویژگی استفاده شود. به جاى استفاده از كل
مدل از پیش آموزش دیده. فقط از لایه های بايين قر يا لايه هاى خاص مى توان برای استخراج ویژگی ها از داده های برچسب دار استفاده کرد. این
ویژگیها سپس میتانند به یک طبقهبندی کننده جداگانه یا مدل پاییندستی برای آموزش روی دادههای برچسبگذاری شده محدود وارد شون. با
استفاده از ویژگیهای غنی آموختهشده از طریق یادگیری خود نظارتی, مدل میتولند بهتر تحمیم دهد و حتی با دادههای برچسبگذاری شده محدود به
عملکرد بهترى دست يابد
صفحه 168:
۶۵ ادامه...؟
۴داده افزایی و متظم سازی : یادگیری خود نظارتی اغلب شامل تکنیک های داده افزایی است. که در آن تغییر شکل های مختلف بر روی داده های
بدون برچسب اعمال مى شود اين داده هاى افزوده صى تولند براى آموزش مدل و افزليش استقامت به تفييرات مختلف و نوبز در داده ها استفاده شود
هنكامى كه يا دادههاى برجسبكذارى شده محدود تركيب مىشود. يادكيرى خود نظارتى بدعنوان شكلى از منظمسازى عمل مىكتد. از بيش برازش
جلوكيرى مىكند و قابليتهاى تعميم مدل را بهبود مى يخشد.
۵ یادگیری فعال و يادكيرى نيمه نظارتى: يادكيرى خود نظارتى را مى توان با يادكيرى فعال یا راهبردهاى يادكيرى نيمه نظارقى تركيب كرد ما از داده
هاى برجسب كذارى شده محدود استفاده موثرى كرد. با استفاده ازويثكيهاى مدل از ييش آموزش ديده: مدل مى تواند به طور فعال آموزنده ترين تمونه
ها را از مجموعه بدون برجسب براى حاشيه نويسى انتخاب كند. لين كار به انتخاب هوشمندلنه نمونه هليى براى برجسب كذارى. بهينه سازى استفاده از
منابع محدود يرجسب كذارى و ببهبود عملكرد مدل كمك مى كند.
با استفاده از قدرت يادكيرى خود نظارتى. مدلها مىتواندد از مقادير زيادى دادههاى بدون برجسب در دسترس براى يادكيرى ويزكىهاى مفيد بهره
ببرند. سپس این ویژگیها میتونند منتقل شوند, تنظیم شوند یا هعنون استخراحکننده ویژگی براى كارهاى تحت نظارت خاص مورد استفاده قرار
گیرند و به مدلهای یادگیری عمیق اجازه میدهند حتی با دادههای برچسبگذاری شده محدود به خوبی عمل کنند. یادگیری خود نظارتی به عنوان
یک ابزار ارزشمند برای پر کردن شکاف بین در دسترس بودن دادههاى برجسبكذارى شده و نياز به آموزش در مقياس بزرك در برنامههاى يادكيرى
عميق عمل مىكند.
صفحه 169:
۶ مفهوم ترانسفورمر در بادگیری عمیق را توضیح دهید.
ترانسفورمرها نوعی معماری مدل یادگیری عمیق هستند که محبوبیت قلیل توجهی به دست آورده لند وبه نتایج پیشرفته ای در وظلیف مختلف پردازش زبان
طبیمی (1۱۳ ست بافته ند این مسماری در مقاله "نوچ تمام چیزی لت که شما نیز درید" توسط واسوانی و همکاران در سال ۲۰۱۷ مسرفی شدند.
ایده کلیدی پشت ترانسفورمرها استفاده از مکانیزم های خود توجهی است که به مدل اجازه می دهد اهمیت موقمیت ها با کلمات مختلف در دنباله ورودی را
هنگام پیش بینی اندازه گیری کند. این مکانیزم توجه به مدل اجازه میدهد تا بر زمینه مرتبط تمرکز کند و وایستگیهای دوربرد وا بطور موثر درک کند.
معماری ترانسقورمر از دو جزء اصلی تشکیل شده است: رمزگذار و رم
یک دنباله ورودی را می گیرد و آن را پردازش می کند تا مجموعه ای از خصایص یا ویژگی هلیی را تولید کند که اطلاعات متنی را درک
می کند. دتباله ورودی به توکن های جداکلنه تقسیم می شود که در ویزگی های برداری پیوسته جاسازی شده اند. سپس این توکنهای جاسازی شده از میان
۱ رمزگذار: رمز
پشتهای از لایههای یکسان عبور داده مىشوند كه معمولاً به عنوان لايههاى رمزكذار شناخته مىشوند. هر لايه رمزكذار از دو لایه فرعی تشکیل شده است: یک
ر میسازد تا وایستگیهای بین موقعیتهای
مستقل اعمال میکند.
مکانیزم خودتوجهی چند سر و یک شبکه تغذيه به جلو تمام متصل از نظر موقعيت. مكانيزم خودتوجهى مدل را قا
مختلف را در دنباله ورودى ثبت كند. در حالى كه شبكه بيشخورء تبديلهاى غيرخطى را براى هر موقعیت به:
صفحه 170:
۶ ادامه....
۲ رمزگشا:رمزگشا ویژگی های کدگذاری شده را از رمزگذار می گیرد و یک دنبلله خروجی تولید می کند. مشلبه رمزكذار, رمزكشا از يشته ى از لايه
های یکسان تشکیل شده است كه به آنها لايه هاى رمزكشا مى كويند. رمزكشا علاوه بر لایههای فرعی خود توجه و پیشخور, یک مکانیزم خودتوجهی
جند سر ماسكدار اضافى نيز دارد. لين بوشش تضمين مىكند كه در طول آموزش. مدل فقط مى تواند.به موقعيتهاى قبل از موقعیت فعلی توجه کند.
و از ديدن توكنهاى آيتده جلوكيرى مىكند و از توليد اتوركرسيو در طول رمزكشايى اطمينان مىدهد. رمز كشا همجنين داراى مكانيزم توجه رمزكذار-
رمزگشا است که به مدل اجازه می دهد تا به ویژگی های کدگذاری شده تولید شده توسط لايه هاى رمزكذار توجه کند.
معمارى تراتسفورمر جندين مفهوم مهم رأ معرفى مى كند:
.١ خود توجهی: خود توجهى به مدل اجازه می دهد تا اهمیت موقعیت های مختلف را در یک دنبلله ورودی بسنجد. لین امر امتیازات توجه را برای هر
موقعیت بر اساس رابطه آن با سایر موقعیت ها محاسبه می کند. لین کار مدل را قادر میسازد تا هم وایستگیهای محلی و هم وابستگیهای دوربرد را
بهطور کارآمد درک کند.
۲. توجه چند سر: به جای تکیه بر یک مکانیزم توجه ترانسقورمرها از توجه چند سر استفاده می کنند. هر سرتوجه الگوها و وایستگیهای متفاوتی را یاد
مگیره و مثل را قادر میساود تا جنبههای متذوعی از دتباله ورودی را به تصویر بکشد.
صفحه 171:
۶ ادامه....
۲ رمزگذاری موقعیتی:ترانسفورمرها رمزگذاری موقعیتی را برای الئه اطلاعات در مورد ترتیب یا موقعيت توكن ها در دنبلله ورودی تر
اين كار مدل را قادر می سازد تا اطلاعات متوالی را حتی بدون اتصالات بازگشتی درک کند.
۴ اتصالات باقيمانده و عادی سازی لایه: برای تسهیل آموزش کارآمد و کاهش مشکل محو گرادیان ۰ ترادسفورمرها از اتصالات باقیمانده و نرمال سازی
لایه در هر زیر لایه و اطراف کل پشته های رمزگنار و رمزگشا استفاده می کنند.
ترانسفورمرها NLP ills را متحول کرده لند و در کارهلیی مانند ترجمه ماشینی. خلاصه سازی متن. تجزیه و تحلیل احساسات و پاسخ به سوالات به
تعليج بيشرقته أ دست یافته اند توانابی آنها در درک وابستگیهای دوربرده ممازی کردن محاسبات: و دنبالههای ورودی پردازش به صورت موازی»
باعث شده است تا در مدیریت دادههای متوللی بسیار موثر باشند. ترانسفورمرها همچنین فرلتر از 1۳لا به حوزه های دیگر, از جمله بینلیی کامپیوتر و
یادگیری تقویتی گسترش يافته اند.
صفحه 172:
۷ چند مدل متداول مبتنی بر ترانسفورمر کدامند؟
چندین مدل مبتتی بر ترانسفورمر محبوب وجود داشته است که پیشرفت های قلبل توجهی در حوزه های مختلف داشته است. در اینجا چند نمونه قابل توجه
آورده شده
ور است:
۱ ترانسفورمر: مدل اصلی ترانسفورمر در مقلله "توجه همه شما نیاز است" توسط واسوانی و همکاران معرفی شد. لین مدل پایه و اساس استفاده از مکانیزم
های خودتوجهی را در وظایف ]۱۱ گذاشت و به طور گسترده به عتوان یک معماری پایه پذیرفته شده است.
۲ 8۶۲ (نملیش های رمزگذار دوطرفه از تیانسفورمرها): 8660 که توسط 06110] و همکاران معرفی شد. یک مدل مبتنی بر ترانسفورمر برای پیش
آموزش بر روی مقادیر زیادی از داده های متنی بدون برچسب است با استفاده از یک هدف مدلسازی زیان ماسکدار و پیشبینی جمله بعدی, عملکردی
فته در طیف وسیعی از وظایف .۱1 به دست آورد
¢-1.GPT (Generative Pretrained Transformer) + مدل هاى 621 شامل 6۳۲,)6۳-2 و 6۳1-3 توسط 006۳۸۵۱
تومه باده شد این مدلها با استفاده ار ممیاریهای مر تسغورس با یر شوه پارلنتر هه قبلتهای تلد رین جح رانقان تاد به وینه 1-3 دبا
۵ مارد پاراستر یکی از بزرگترس مدل های است که تا کون آمورش دیده است.
Transfer Transformer): T5 + 1۵۱-۷0-۲6) ۲5 که توسط رافل و همکاران معرفی شد. یک مدل همه کاره مبتنی بر ترانسفورمر
است که از یک چارچوب یکپارچه برای کارهای مختلف -الاأ. از جمله ترجمه ماشينى. خلاصه سازی متن. پاسخگویی به سوال و ... استفاده می کند.
۵ 2۱0۱6 :۵01166 پیشنهاد شده توسط Sib و همکاران» ایده آموزش مبتنی بر جایگشت برای مدل سازی زبان را معرفی کرد. از همه جایگشتهای
ممکن دنباله ورودی برای کاهش محدودیتهای ماهیت خودبازگشتی مدلهای زبان سنتی استفاده میکند و عملکردی پیشرفته در چندین کار Ag NLP
و
صفحه 173:
۷ ادامه...؟
ROBERTa + :08۴۲6 معرفی شده توسط لیو و همکاران. یک گنه از 8۴۹ است که معماری مدل و فرآیند آموزش را بیشتر بهینه کرد.
با استفاده از انازههای دستهای بزرگتره دادههای آموزشی بیشتر و برنمههای آموزشی طولانیتره عملکرد بهتری به دست آورد.
BERT توسط 180و همکاران, با هدف کاهش تعداد پارامترها و بهبود کارایی مدل های ALBERT (A Lite BERT): ALBERT vy
پيشنهاد شد. از تکنیک های به اشتراک گذاری پارامتر برای کاهش قابل توجه اندازه مدل و در عین حال حفظ عملکرد رقابتی استفاده کرد.
2۲۴۵ (یادگیری موثر رمزگذار که جایگزین های توکن رابه طور دقیق طبقه بندی می کند: 102۲3 که توسط کلارک و همکاران
معرفی شد. رویکرد جدیدی را برای پیش آموزش ترانسفورمرها الئه کرد. لین مدل یک تنظیم مولد-متمایزگر را پیشنهاد کرد. که در كن يك مدل مولد
نمونههای خراب را ایجاد میکند. و یک مدل متمایزگر یاد میگیرد بین نمونههای اصلی و خراب تملیز قثل شود. ۴.2713۸ با آموزش کارآمدتر در
مقایسه یا مدلهای زبان ماسکدار سنتى به نتايج قویتری دست یافت.
اينها تنها جند نمونه از بسیاری از مدل های مبتنی بر ترانسفورمر هستند که در سال های اخیر ظهور کرده اند. هر یک از این مدل ها سهم قابل توجهی
در وظایف !۱ داشته اند و وضعیت مدلها را در درک و تولید زبان طبیعی ارتقا داده اند
صفحه 174:
patho FA یادگیری ویژگی بدون نظارت چیست؟
یادگیری ویژگی بدون نظارت یک تکنیک یادگیری ماشینی است که هدف ّن یادگیری خصایص یا ویژگیهای معنادار از دادههای بدون برچسب بدون
نیاز به نظارت صریح یا مثالهای برچسب گذاری شده است. هدف این است که ساختار زیرینایی. الگوها یا اطلاعات معنایی موجود در داده ها را به تصوير
بکشد. که سپس می تواند برای کارهای مختلف پایین دستی استفاده شود.
در یادگیری با نظارت سنتی, مدلها با استفاده از دادههای برچسبگذاری شده آموزش داده میشوند. جایی که هر نقطه داده با یک برچسب یا مقدار
هدف خاص مرتیط است. با لین حال, به دست آوردن داده های برچسب گناری شده می تواند در بسیاری از سثاریوهای دنیای واقعی گران. زمان بر یا
حتی غیرممکن باشد. یادگیری ویژگی بدون نظارت این محدودیت را با استفاده از مقادیر زیادی از داده های بدون برچسب به راحتی در دسترس
پرطرف می کند
مفهوم یادگیری ویژگی بدون نظارت شامل طراحی الگوریتم ها یا مدل های یادگیری است که می توانندبه لور خودکار ویژگی ها یا خصایص مفید را از
داده ها کشف و استخراج کنند. این ویژگی ها باید اطلاعات مهمی را در مورد دامنه دادههاء مانتد ویژگیهای آماری؛ روابط معنایی بین نمونهها یا
الگوهای مربوطه. به دست آورند.
یادگیری ویژگی بدون نظارت می تواند از چندین جهت مفید باشد:
۱ كاوش و نمايش داده ها: تکنیک هلی یادگیری بدون نظارت به درک ساختار و توزیع داده هابا نمایش آن ها در فضایی با ابماد پایین تر کمک می
کند. معمولا برای این منظور از الگوریتمهای کاهش ابعاد مانند آنالیز مژلفه اصلی (۳)2۸) یا عل/5- استفاده میشود.
صفحه 175:
۸ ادامه...؟
۲ پیش آموزش و یادگیری انتللی: یادگیری ویژگی بدون نظارت می تواندبه عنوان یک گام مهم در پیش آموزش شبکه های عصبی عميق عمل كند.
با آموزش مدلها بر روی مقادیرزیادی از دادههایبدون برچسب. آنها ید میگیرند که ویژگیهای معنیداری را که مبوط به حوزه داده استه درك
کنند. سپس این مدلهای از پیش آموزشدیده را میتوان بر روی مجموعه دادههای برچسب گذاریشده کوچکتر رای وظلیف نظارتشده خاص تنظیم
کرد که منجر به بهبود عملکرد و همگرایی سریعتر میشود
1 خوشهبندی و تشخیص ناهنجاری: روشهای یادگیری بدون نظارت مانشد الگوریتمهای خوشهبندی. مانند 6068105 يا خوشهبتدى سلسله
مراتبی. میتوانند نمونههای مشایه را بر اساس نمایش ویژگیهایشان با هم گروهبندی کنند. اين کار به شناسایی الگوها یا گروه بندی نقاط داده در دسته
های مجزا بدون آگاهی قبلی از برچسب های کلاس کمک می کند. همچنین میتوان از تکنیکهای تشخیص ناهنجاری برای شناسایی موارد غیرعادی
یا پرت در دادهها استفاده کرد.
۴ مدل سازی مولد: یادگیری بدون نظارت می تواند برای مدل سازی مولد استفاده شود. جایی که مدل ها یاد می گیرند نمونه های جدیدی تولید کنتد
که شبیه توزیع داده های بدون برچسب است. رمزگذارهای خودکار متغیر (/۷) و شبکههای مولد تخاصمی ((3/0)) مدلهای تولیدی محبوبی
هستند که میتونند نمنههای داده جدیدی مانند تصاویر یا متن را بر اساس ویژگیهای آموخته شده تولید کنند.
عور كني لكر Ah يدون نظارت به ماش ها بعازه می فهد نامه طیر مس تقل ویژگی های مفسد راز ده های دون برچ SE Sh
سپس میتوان از این ویژگی ها برای کارهای مختلف پاییندستی مانتد طبقهبندی, خوشهبندی, تشخیص ناهنجاری يا مدلسازی تولیدی استفاده کرد
که منجر به بهیود عملکرد؛ تعمیم و درک دادهها میشود.
صفحه 176:
٩ چگونه می توان از بادگیری عمیق برای یادگیری ویژگی بدون نظارت استفاده کرد؟
تکنیک های یادگیری عمیق را می توان برای یادگیری ویژگی بدون نظارت استفاده كرد تا به طور خودکار ویژگی ها یا خصایص معنی دار را از داده
های بدون برچسب یادبگیرد. در انجا برخی از رویکردهای رایج آورده شده است:
le Autoencoder: ۱ یک نوع معماری شبکه های عصبی هستند که از یک رمزگذار و یک رمزگشا تشکیل شده اند.
میتی بازسازى مى ۳
آموزش مدل برای به حداقل رساندن خطای بازسازی, رمزگذار اد می گیرد که ویژگی های مهم یا خصایص داده های ورودی را درک کند.انواع
رمزگذارهای خودکارء مانند حذف نویز خودکار یا رمزگنارهای خودکار متغير (VA) فرآيند يادكيرى رابا افزودن نويز به ورودى يا تركيب مدلسازی
احتمالی اقزایش میدهند.
۲ شبکه های مولد تخاصمی cle Jas le GAN (GAN) یادگیری عمیق هستند که از یک مولد و یک متمایزگر تشکیل شده اند. هدف مولد تولید
نمونههای داده مصنوعی است که شبیه دادههای بدون برچسب هستند. در حللی که متمایزگر سعی میکند بین دادههای واقعی و تولید شده تملیز قلثل
شود. از طریق یک فرآیند آموزش متخاصم. مولد یاد میگیرد که نمونههای واقعی تولید کند. و متمایزگر یاد میگیرد بین نمونههای واقعی و جعلی
GAN og ith alas ها را می توان بر روی انواع داده ها مانتد تصاویره متن یا حتی دنبلله ها آموزش داد و توانایی های قلبل توجهی در یادگیری
ویژگی بدون نظارت نشان داده است.
۳ یادگیری خود نظارتی: یادگیری خود نظارتی تکنیکی است که در آن مدل آموزش دادم می شود تا برخی از اطلاعات مفید را از خود داده ها بدون
نيازبه حاشيه نویسی خارچی پیش بینی کند. ین کار شامل ایجاد سیگنال های نظارت مصنوعی از داده ها است. بهعنوان مثال. در زمینه زبان, مدل را
می توان برای پیش بینی کلمات ماسک دار در یک جمله یا پیش بینی کلمه بعدی با توجه به متن قبلی آموزش داد. با آموزش مدل بر روی این وظایف
اد میگیرد که ویژگی های معناداری از دادههایی را که اطلاعات معنایی و درک زمینهای را به دست میآورند. به دست آورد.
خودساخته.
صفحه 177:
٩ ادامه..؟
۴ یادگیری متضاد: یادگیری متضاد تکنیک دیگری برای یادگیری ویژگی بدون نظارت است. لین تکنیک شامل آموزش مدلی برای تملیز بین جفتهای
ت (نمونههایی که مشلبه یا از نظر معتلیی مرتبط هستند) و جفتهای منفی (نمونههایی که غیرمشابه یا نامرتبط هستند) است. باه حداکثر رساندن
شباهت بین جفتهای مقبت و به حداقل رساندن شباهت بین جفتهای منفی» مدل یاد میگیرد که نمایشهای مفیدی را استخراج کند که ساختار
زیربنایی یا معنایی دادهها را نشان میدهد.
آموزش و یادگیری انتقالی: مدلهای یادگیری عمیق که بر روی مقادیر زیادی از دادههای برچسب گذاری شده برای وظایف نظارت شده از قبل
آموزش داده شدهانده میتواتتد برای یادگیری ویژگی بدون نظارت نیز سورد استفاده قرار گيرند. با استفاده از ویژگی های آموختهشده در مرحله
آموزش, این مدلها را میتون بر روی دادههای بدون برچسب برای کارهای بدون نظارت تنظیم کرد. ان رویکرد یادگیری انتقالی به مدل اجازه
میدهد تا ویژگیهای کلی و دانش را از دادههای برچسب گذاریشده دریافت کند و ویژگی ها را با استفاده از دادههای بدون برچسب اصلاح کند.
اين رويكردها نشان مىدهند که چگونه تکنیکهای یادگیری عمیق را میتوان برای یادگیری ویژگی بدون نظارت به کار برد با استفاده از قدرت بیان
شبکههای عصبی عمیق, این مدلها میتوانند. ویژگی های پیچیده و معنیداری را از ددهای بدون برچسب پیاموزند که منجر به بهبود عملکرد در
وظايف باييندستى و درك بهتر ساختار اساسی و معنایی دادهها میشود.
صفحه 178:
۰ مفهوم شبکه های عصبی گراف([۵1)) را توضیح دهید.
شبکههای عصبی گراف (3۱۷(۷)) نوعی معماری شبکه عصبی هستند که برای کار بر روی دادههای ساختاریافته گرافی طراحی شدهاند. گراف ها شامل
گره هلیی (همچنین به عنوان رئوس شناخته می شوند) هستند که توسط یال ها (همچنین یه عنوان بيوند شناخته مى شوند) یه هم متصل شده اند. و
GNN ها به طور خاص برای پردازش و یادگیری از اطلاعات رابطه ای ذانی موجود در گراف ها طراحی شده اند.
ایده کلیدی پشت !!31) ها به روز رسانی ویژگی هر گره با جمع آوری اطلاعات از گره های همسایه ن است که هم ویژگی های محلی گره و هم
زمينه كلى لن را در كراف ثبت می کند. این فرآیند تجمیع به طور مکرر در چندین لایه انجام میشود و به شبكه اجازهمیدهد تا وابستگیهای
بيجيدهتر و روابط مرتبه بالاتر را كيرد.
معماری معمولی یک 2 الا31) از اجزاى زير تشكيل شده است:
۱. ویژگی های گره: هر گره در كراف با يك بردار ويزكى همراه است كه نشان دهنده ويزكى هايا خصايص لن است. اين ويزكىها میتوند هر گونه
اطلاعات مرتبط با كره باشد. مانند تو
متئى. مقادير عددى يا برجسبهاى طبقهبندی.
۲ارسال پیام: عملیات اصلی در !3 ها مکانیزم ارسال پیام است. در اين فرآيند. هر كره اطلاعاتی را از گرههای مجاور خود جمعآوری میکند و
ویژگی خود را بر اساس اطلاعات جمعآوری شده به روز میکند. لین تبادل اطلاعات به گرهه اجازه میدهد تا از همسایگان محلی خود بياموزند و دلنش
گرههای مجاور را در خود یگنجانند.
۲تلبع تجمیع: تلبع تجمیع نحوه ترکیب اطلاعات از گره های همسایه را تعیین می کند. با در نظر گرفتن وزنهای قلبل یادگیری یا مکانیزمهای توجه
برای اهمیت دادن به همسایگان مختلف. میتواند به سادگی یک مجموع یا عملیات میانگین یا پیچیدهتر باشد.
صفحه 179:
۰ ادامه....
۴.به روز رسانی گره: هنگامی که اطلاعات جمع شد. گره ویزگی خود رابا ترکیب اطلاعات جمح شده با ویژگی فعلی خودبه روز می کند. این مرحله
بهروزرسانی میتواند شامل تبدیلهای غیرخطی مانند اعمال یک لایه شبکه عصبی یا تابع فعالسازى. براى درك روابط بيجيده باشد.
۵.خروجی سطح گراف: در برخی موارد. )ها خروجی در سطح گراف نیز تولید می کنند که خلاصه ای از اطلاعات بدست آمده از کل گراف است.
این خروجی را می توان برای کارهایی مانند طبقه بندی گراف یا پیش بینی در سطح گراف استفاده کرد.
621۷8 ها در طیفگسترده لعاز کاربردها از جمله تسجزیه و تسحلیلشسبکه هایاجتماعی سیستم هایتسوصیه. شسیمیمولکولی لستداسمودار دلنش
و شبکه هاولستنادیو غیره موف وده لند آرا در درکولبستگیهایب بچیده وا لگوهایساختاریدر دادههای؟_ولفعالیهستد و قابلیهاولستدلالو
پیش يني قديتمندىرا ممكرهيم ايند محققارإناع مختلفياز 6100110 را پیشنهاد کردهلند مانند شبکههایکانولوشرگولف(!(63), شبکههای
توجه گولف( ۰3۸۵ ۵۲۵0/۱5۸۵ و شبکههییزومورفیسم گرلف(ل31)). که ه کلم دارلیت فییرلتم عمییو تجمیع خاصخود بسولی
يسيدكىبه وظايفمختلفمربوط به كرلفهستد
به طور خلاصه: [11لا|3) ها يك نوع معمارى شبكه هاى عصبى هستند كه براى بردازش و يادكيرى از داده هاى ساختار يافته كراف طراحى شده اند..يا
استفاده از مکانیزمهای ارسال پیام و تجمیع. ل/3۷)ها مد لسازى روايط و وابستكىها بين كردها را امكانيذير میکنند و آنها را براى كارهاى مختلف
مرتيظ با كراف متاسب مى سازنف,
صفحه 180:
۱ برخی از کاربردهای شبکه های عصبی گراف را نام ببرید.
شبکههای عصبی گراف (21۷)) در جاهلیی که داده ها را می کاربردهای زیادی دارند. در اینجا برخی از کاربردهای
قبل توجه [21۷8) ها آورده شده است:
.١ تجزيه و تحلیل شبکه های اجتماعی: 63111 ها برای تجزیه و تحلیل شبکه های اجتماعی» مدل سازی رولبط بين افراد و ثبت تاثیرآنها بر یکدیگره
ساختار جامعه. و انتشار اطلاعات استفاده شده اند. این مدلها می توانند برای کارهایی مانند پیش بینی پیوند. طبقه بندی گره ها و تشخیص جامعه
استفاده شوند.
۲ سیستم های توصیه كننده: 0010© ها براق سیستم های توصیه اعمال شده اند که در ن کاربران و
هابه عنوان گره ها در یک گراف نمایش
داده می شوند. 3۷|۷) ها می توانند تعاملات کاربر و آیتم را درک کنند و اطلاعات را از طریق گراف منتشر کنند تا توصیه های شخصی ایجاد کنند.
۳ استدلال گراف دانش: ل(ل/2) ها برای استدلال و استنتاج در گراف های دانش استفاده شده اند که موجودیت ها و روابط آنها را نشان می دهند.
)ها می توانند روابط معنایی بین موجودیت ها را درک کنند. پیش بینی پیوندها را انجام دهند و حقایق یا روابط گمشده را استنتاج کنند.
۴ شیمی مولکولی: [(3۱۷) ها نتلیج امیدوارکننده ای را در پیش بینی خواص مولكولى. مانند فعاليت يا سميت مولكولى نشان داذه اند. 61010 ها مى
توانند ساختار و برهم کنش اتم ها و پیوندها را در یک مولکول درک کنند و پیش یینی های دقیق و کاربردهای کشف دارو را ممکن می سازند.
صفحه 181:
۱ ادامه..؟
۵ پردازش زبان طبیعی (-1): ل!2۱۷) ها برای کارهای مختلف 0ل» مانند تجزیه معنایی, طبقه بندی متن. و شناسایی موجودیت نام دار به كار
رفته اند. با نمایش متن به عنوان گراف و استفاده از اطلاعات رابطه ای. 63۷/۷ ها می توانند وابستگی بین کلمات یا موجودیت ها را درک کنند.
۶بینایی کامپیوتر: /2) ها در وظلیف بینلیی کامپیوتری که در آن. داده ها ساختار گراف دارند. مانند ابرهای نقطه ای یا گراف های صحنه, استفاده
شده است. 631۷/۷ ها می توانتد رولبط بین اشیاء را پردازش و استدلال کنند و کارهایی مانند تشخیص اشیاء درک صحنه و تجزیه و تحلیل شکل سه
Beet a
۷ بیوانفورماتیک: لال3ها در کاربردهای بیوانقورمانیک از جمله پیشبینی برهمکنش Sa ata پیشبینی ساختار پروتلین؛ و پیشبینی
عملکرد ژن. استفاده شدهاند. co lo GNIN توانند روابط پیچیده بین موجودات بیولوژیکی را ثبت کنند و به درک سیستم های بیولوژیکی کمک کنند.
JA
شبکه را مدلسازی کنند. الگوهای فعالیتهای مخرب را شناسایی کنند و رفتار غیرعادی را د
lo GNN 25 jl برای وظلیف امنیتی شبکه. مانند تشخیص نفوذ و طبقه بندی بدافزارها استفاده شده است. ل!2۱۷)ها میتوانند توپولویئی
عهاى شبكه در مقلس بزرگ شناسای کنند
اینها تنها چند نمونه از کاربردهای ل3۷8) هستند. انعطافپذیری !7۷)ها در مدلسازی و استدلال با دادههای ساختاریافته. آنها را در بسیاری از
حوزههای دیگر از جمله مللی. حملونقل» سیستمهای توصیه. کشف تقلب و موارد دیگر قلبل استفاده میکند. GNIN ها همچنان یک حوزه تحقیقلتی
فعال با هدف پرداختن یه چالش های جدید و پیش بردن مرزهای یادگیری و استنتاج میتنی بر گراف هستند.
صفحه 182:
۳ مفهوم هوش مصنوعی توضیح phy در یادگیری عمیق چیست؟
هوش مصنوعى توضيح بذير (0)41 به مفهوم طراحى و توسعه سیستمهای هوش مصنوعی (1(/ بهوییهمدلهای یادگیری عمیق اشاره دارده به كونداى
که به انسان اجاژه میدهد قرآیندهای تصمیمگیری خود را درک و تفسیر کند. هدف لن ارئه توضیحات با توجیهی برای پیشبینیها یا اقدامات انجامشده
توسط مدلهای هوش مصنوعی است. و کاربران را قادر میسازد تا به عوامل اساسی که در اين تصمیمها کمک میکنند اعتماد. تأیید و درک کنند.
مدل های یادگیری عمیق. مانند شبکه های عصبی.به دلیل عملکرد قلبل توجه خود در وظلیف مختلف از جمله طبقه بندی تصویر پردازش زبان طبیمی
و تشخیص گفتان شناخته شده اند با لين حال. آنها اغلب به عنوان جمبه سیاه پیچیده عمل مى کنند و درک اینکه چرا یک پیش بینی یا تصمیم خاص
گرفته شده است. چالش برانگیز است. این فقدان تفسیرپذیری نگرانیهایی را بهوییه در حوزههاى حياتى كه در لن تصميمها بر زندكى انسانها تأثير
ع ىكذارف عائند عراقيتهاى بهداضتيء عالى و سيستوهلى مستقل ايجاد م ىكند.
هوش مصنوعى توضيح يذير تلاش مى كند قاما ارلئه بينشى در مورد عملكرد داخلى مدل هاى هوش مصنوعى به لين چللش رسیدگی کند. در اینجا چند
تكنيك و رويكرد رايج مورد استفاده در هوش مصنوعى توضيح بذير براى يادكيرى عميق آورده شده است:
۱. اهمیت ویژگی: روش هلیی مالند تجزیه و تحلیل اهمیت ویژگی یا روش های اسناد با هدف شناسایی ویژگی های ورودی است که بیشترین سهم را در
پیش بینی های مدل دارد. لین تکنیکها به درک لین که کنام ویژگیها توسط مدل, مرتبط در نظر گرفته میشوند. کمک میکنند و میتوانند بینشی در
مورد فرآیند تصمیمگیری ارائه دهند.
۲. توضیحات محلی: روش های توضیح محلی بر ره توضیحات برای پیش بینی های واحد تمرکز دارن. هدف لین روش ها برجسته کردن نواحی یا ویژگی
های خاص در ورودی است که بر تصمیم مدل تأثر گذاشته است. تکنیک هلبی مانند 14| (توضیحات مدل قلبل تفسیر محلی-اگنوستیک) و 511۸8
(توضیحات افزودنی 65113/۵6۷ در این دسته قرر می گیرند.
صفحه 183:
۲ ادامه..؟
۳. استخرج قنون: هدف روش های استخراج قانون استخراج قوانين قابل درك برای انسان از مال های یادگیری عمیق آموزش دیده است. ابن قوانين
می تونندقوانین تصمیم گیری قلیل تفسیری را رئه دهند که رفتار مدل پیچیده را نقلید می کند وبه کربران امکان می دهد فرآیند تصمیم را درک
کشند.
۴ تکنیک های نملیش: نملیش ها نقش مهمی در توضیح عملکرد درونی مدل های یادگیری عمیق دارند. تکنیکهلیی مانند نقشههای برچسته, نملیش
فعالسازی و نقشههای توجه. بازنماییهای بصری را ارائه میدهند که نواحی یا ویژگیهای مهم دادههای ورودی را که بر پیشبینیهای مدل تأثیر
میگذارند. برجسته میکنند.
۵ سادهسازی مدل: رویکرد دیگر برای توضیحپذیری .شامل ایجاد مدلهاى سادهتر و قابل تفسير است كه رفتار مدلهاى بيجيده یادگیری عمیق را
تقریب میکند. لین مدلهای سادتر,منند درختهای تصمیم گیری یا مدلهای خطی, میتوانند شفافیت و قلبل فهم بودن رابه قیمت برخی عملکردها
فراهم کنند.
هوش مصنوعی توضیح پذیر نه تنها شفافیت و اعتماد را در سیستمهای هوش مصنوعی ارتقا میدهد. بلکه به شناسایی بایاسهاء ملاحظات اخلاقی و
خطاهای احتمالی در فرآیند تصمیمگیری کمک میکند. کاریران. ذینفعان و نهادهای نظارتی را قادر میسازد تا دلایل پشت پیشبینیهای هوش
مصنوعی را درک کنند و اطمینان حاصل کند که تصمیمها با اصول اخلاقی؛ قانونی و منصفانه مطابقت دارند.
با پیشرفت تحقیقات در زمینه هوش مصنوعی توضیح پذیر . هدف ایجاد تعادلی بین عملکرد مدل و قابلیت تفسیر است و مدلهای یادگیری عمیق را
برای طیف گستردی از بنمههای کاربردی دنیای واقعی پاسخگوتره شفافتر و قابل دركتر مىكند.
صفحه 184:
۳ چگونه می توان مدل های یادگیری عمیق را قابل تفسیرتر ساخت؟
تفسیرپذیرتر کردن مدلهای یادگیری عمیق یک حوزه فعال تحقيق با تكنيكها و رویکردهای مختلف است. در اينجا جند استراتزى وجود دارد كه مى
تون برای افزایش تفسیرپذیری مدل های یادگیری عمیق استفاده کرد
اهمیت ویوگی: درک سهم وینگی های متحصر به فرد در پیش بسی های مدل می تولند بینش های ارزشمندی را لته دهد تکتیکهایی مانشد
تجزیه و تحلیل اهمیت ویژگی یا روشهای انتساب. مانند روشهای مبتنی بر گرادیان (به عنوان مثال, Gradient Class Activation
6۳۵0-۷۷ - ۵001۳9). میتوانند ویژگیها یا نواحی ورودی را که به شدت بر خروجی مدل تأثیر میگذارند. شناسایی کنند.
۲نمایش فعالسازی: نمایش فعالسازی لایههای میانی یا نورونهای خاص در شبکه میتواند بینشی در مورد نحوه پردازش مدل دادههای ورودی ارائه
دهد. نمایش های فعالسازی, مانند نقشههای فعالسازی یا نقشههای حرارتی» میتواتند مشخص کنند که کدام نواحی یا الگوهای موجود در ورودی
فمال شدهاند و به تصمیم گیری مدل کمک ميکنند.
۳مکانیزمهای توجه: مکانیزمهای توجه. که معمولاً در مدلها و ترانسفورمرهای دنباله به دنباله استفاده میشوند. میتوانند نشان دهند که کدام بخش از
ورودی برای مدل مرتبطتر است.
a ee ee Oe Oe
میکند. نمایش داد.
صفحه 185:
VY دامه...؟
۴ استخراج قانون: هدف تکنیک های استخراج قانون استخراج قوانین قلبل درک برای انسان از مدل های پیچیده یادگیری عمیق است. اين قوانين مى
توانند قوائین تصمیم گیری قلبل تفسیری را ارلثه دهند که رفتار مدل عمیق را تقلید می کند وبه کاربران امکان می دهد فرآیند تصمیم را درک کنند.
ن منطقی, رفتار مدل را به قوائینی که به راحتی قابل تفسیر هستند. ساده
۵. تقطیر مدل: تقطیر شامل آموزش یک مدل ساده تر و قابل تفسيرتر. مانند درخت تصميم يا مدل خطى. براى تقريب رفتار مدل يادكيرى عميق است.
مدل سادهتر میتولند الگوهای مهمی را که توسط مدل عمیق آموخته شده است. در حللی که نمایش شفافتر و قلبل فهمتری ارلثه میدهد. به تصویر
بکشد.
۶آزمون خصمانه: ارزيلبى استحكام مدل در برابر نمونه هاى متخاصم مى توند به درک آسیب پذیری ها و ایاس های احتمالی آن کمک کند. آزمون
خصمانه شامل تلد تمونه های آشفته ای است که برای فرب دادن مثل با ره اندازی بش نی های امرست طراحی شده لند و مرزهای تصمیم
گیری مدل و نقاط ضعف بالقوه را روشن می کنند
۷ تملیش تعاملی: توسعه نملیش های تعاملی یا بزارهایی که به کاربران اجاژه میدهد پیتبیتیها و ویژگیهای داخلی مدل را کاوش کتند وبا آتها
تعاسل داشته باشند» میتواند تفسیرپذیری را بهبود بخشد. کاربران میتوانند با دستکاری ویژگیهای ورودی. مشاهده پاسخ مدل, و درک فرآیند
تصمیمگیری به شیوای شهودیتره بینشهایی کسب کنند.
صفحه 186:
VY دامه...؟
۸ معماری های توضیح پذیر: طراحی معماری ها به طور خاص با در نظر گرفتن قابلیت تفسیر می تواند شفافیت مدل را افزایش دهد. برای مثال.
ترکیب مکانیزمهای توجه صریح. استفاده از ساختارهای سلسله مراتبی یا مدولاره یا ترکیب مولفههای قابل تفسیر صریح (به عنون مثال, ماژولهای
مبتنى بر قانون) مى تواند درك را تسهيل كند و رفتار مدل را قابل تفسيرتر كند.
توجه به لین نکته مهم است که اغلب بین تفسیرپذیری مدل و عملکرد یک تعادل وجود دارد. افزليش قابليت تفسير ممکن است منجر به از دست دادن
دقت يا کاهش پیچیدگی شود. بتابراین, انتخاب تکنیکهای تفسیرپذیری باید بر اساس الزامات خاص مسئله مورد نظر انجام شود.
محققان به طور فعال در حال بررسی روشها و تکنیکهای جدید برای افزایش تفسیرپذیری مدلهای یادگیری عمیق و در عين حال حفظ عملکرد
رقابتی هستند. حوزه هوش مصنوعی توضیح پذیر به تکامل خود ادامه میدهد و ایزارها و بینشهلیی را در اختیار پزشکان و پژوهشگران قرار میدهد تا
مدلهای یادگیری عمیق را شفافتره پاسخگوتر و قابل اعتمادتر کنند.
صفحه 187:
۴ مفهوم حملات خصمانه را در یادگیری عمیق توضیح دهید.
حملات خصمانه در یادگیری عمیق به دستکاری عمدی داده های ورودی با هدف گمراه کردن یا ایجاد طبقه بندی نادرست توسط یک مدل یادگیری
عمیق اشاره دارد. هدف این حملات سوء استفاده از آسیب پذیریها و محدودیتهای فرآیند تصمیم گیری مدل. اغلب با ایجاد اختلالات نامحسوس در
دادههای ورودی است.
ايده کلیدی پشت حملات خصمانه تولید نسخه های اصلاح شده از نمونه های ورودی است که به عنوان نمونه های متخاصم شناخته می شهند. که به
گونه ای طراحی شده اند که مدل را به پیش بینی ها یا خروجی های نادرست وادار کنند. مثالهای متخاصم یا اعمال تغییرات کوچک در دادههای
ورودی اصلی ایجاد میشهند. که با دقت ساخته شدهلند تا احتمال فریب مدل رابه حداکثر برسانند و در عین حال برای ناظران انسانی نامحسوس باقی
بمانن.
حملات خصمانه را می توان به دو نوع اصلی طبقه یندی کرد:
۱ حملات ۷۷1۱[]6-80: در حملات جعبه سفید. مهاجم از معماری؛ پارامترها و داده های آموزشی مدل هدف. آگاهی کامل دارد. اين اطلاعات به
مهاجم اجازه می دهد تا تمینه های متخاصم را به طور موثر بهینه کند. روشهای رایج حمله جمبه سفید عبارتد از 5190 6۳۵016۳۶ ۳۵5۴
Jacobian (JSMA) ,, 2. «>, 428 alo , Method (FGSM). Projected Gradient Descent (PGD)
صفحه 188:
۴ ادامه....
۲. حملات جعیه سیاه: در حملات جعیه سیاهه مهاجم در مورد جزئیات داخلی مدل هدف اطلاعات محدودی دارد یا هیچ اطلاعی ندارد. مهاجم فقط می
تواند مدل را پرس و جو کند و خروجی های آن را مشاهده کند. حملات جعبه سیاه معمولاً شامل روشهلیی مانند حملات مبتنی بر انتقال است که در
آن مهاجم یک مدل جایگزین را بر روی دادههای مشابه آموزش میدهد و از آن برای تولید نمونههای متخاصم استفاده میکند. یا حملات مبتنی بر
بهینهسازی, که در آن مهاجم به طور مکرر مدل را جستجو میکند تا نمونههای متخاصم ایجاد کند.
حملات خصمانه پیامدهای مهمی برای امنیت و قابلیت اطمینان سیستم های یادگیری عمیق دارند. لین حملات نگرانیهایی را در مورد آسیبپذیری
مدلها در يرابر تغييرات ظريف دادههای ورودی ایجاد میکنند که به طور بالقوه منجر به پیشبینیها یا اقدامات نادرست در برنامههای کاربردی حیلتی
میشود. حملات خصمانه همچنین عدم استحکام و تعمیم مدل های یادگیری عمیق را برجسته می
محققان و پزشکان از مکانیسمهای دفاعی مختلفی برای کاهش حملات خصمانه استفاده ميکنند. اين دفاعها شامل آموزش خصمانه است که شامل
تقویت دادههای آموزشی با مثالهای متخاصم برای قویتر کردن مدل است و تقطیر دفاعی که در آمن مدل آموزش داده میشود تا نسبت به
آشفتگیهای متخاصم حساسیت کمتری داشته باشد.
حملات و دفاع خصمانه حوزه های تحقیقاتی مداومی هستند. زیرا هم مهاجمان و هم مدافعان به طور مداوم تکتیک ها و استراتزی های جدیدی را
توسعه می دهند. درک ماهیت خصومت حملات و بهبود استحکام مدل های یادگیری عمیق برای استقرار سیستم های هوش مصنوعی ایمن و قابل
اعتماد در سناریوهای دنیای واقعی بسیار مهم است.
صفحه 189:
۵ روشهای دفاع در برابر حملات متخاصم چیست؟
دفاع در برابر حملات متخاصم یک حوزه ت مداوم در یادگیری عمیق است. در حللی که دستیابی به استحکام کامل چللش برانگیز است.
روش و تکنیک وجود دارد که می تواند به بهبود انعطاف پذیری مدل های یادگیری عمیق در برایر حملات متخاصم کمک کند. در اینجا چند مکانیزم
دفاعی رایج وجود دارد
۱ آموزش خصمانه: آموزش خصمانه یک استراتژی دفاعی پرکاربرد است. لین استراتژی شامل تقهیت داده های آموزشی با نمونه های متضاد تولید شده
در طول فرآیند آموزش است. با قرار دادن مدل در معرض لین نمونه های متخاصم. مدل می آموزد که در برابر آشفتگی های متخاصم قوی تر و اتعطاف
پذیرتر شود. آموزش خصمانه می تواند باعث تعمیم بهتر مدل شود و توانایی آن را برای مقاومت در برابر حملات متخاصم بهیود بخشد.
۲ تقطیر دقاعی: تقطیر دفاعی تکنیکی است. که شامل آموزش یک مدل تفطیر شده است که حساسیت کمتری به تغییرات متخاصم دارد. مدل تقطیر
شده با استفاده از خروجی های یک مدل از پیش آموزش دیده به عنوان برچسب های "نرم" به جای برچسب های "سخت" اصلی آموزش داده می
شود. این فرآیند مدل را در رابر حملات متخاصم در طول استنتاج مقاوم تر می کند.
۳ ۲۱۵5/۳9 6۳۵01606 :۳0۵5/09 0۳۵0160۴ يك مكانيزم دفاعى است كه هدف أن مخفى كردن يا مبهم كردن گرادیان های مدل
است و توليد نمونه هاى متخاصم موثر را براى مهاجمان سخت تر مى كند. اين مكانيزم شامل اصلاح معمارى مدل يا فرآيند آموزش براى سركوب
اطلاعات كراديان است كه مى تواند براى ايجاد اختلالات متخاصم استفاده شود.
صفحه 190:
۷۵ ادامه...؟
۴ تبدیل ورودی: روشهای تبدیل ورودی» دادههای ورودی را قبل از تغذیه به مدل, با هدف حذف یا کاهش تأثیر اختلالات متخاصم تغییر میدهند.
تکنیکهایی ماتند تصادفیسازی, هموارسازی یا تزریق نویز را میتوان روی دادههای ورودی به کار برد تا در برایر حملات خصمانه قویتر شود با ين
حال: اين روش ها نیازبه ایجاد تعادل بین استحکام و حفظ اطلاعات مفید در داده ها دارند
۵ دقاع جمعی: روشهای جمعی شامل آموزش چندین مدل یادگیری عمیق و ترکیب پیشبینیهای آنها برای تصمیمگیری است. با استفاده از تنوع
پیشبینیها از مدلهای مختلف روشهای جمعی میتوانتد استحکام مدل را در برابر حملات متخاصم افزایش دهند. مهاجمان باید دفاع چندین مدل را
به طور همزمان دور بزنند و حمله را دشوارتر کتند.
۶ دفاع های تایید شده: هدف دفاع های تایید شده ارائه تضمین های قابل آثبات در برابر حملات خصمانه است. اين روشها شامل فرمولبندی دقاع
بهعتوان یک مسئله بهینهسازی است. که در آن هدف به حداکثر رساندن یک حد پایین در دقت مدل تحت حملات خصمانه است. هدف دفاعهای قابل
تایید ارائه تضمینهای دقیقی است که مدل حتی تحت سطوح خاصی از اختلالات متخاصم عملکرد خوبی خواهد داشت.
توجه به لين نکته مهم است که هیچ روش دفاعی کاملابی خطا نیست و حملات و دفاع های متخاصم دائماً در حال تغییر هستند. مهاجمان می توانند
تکتیک های خود را تطبیق دهند و آسیب پذیری های جدیدی ممکن است ظاهر شوند. بنایرلین. بررسی و ارزیلبی مستمر استراتژیهای دفاعی مختلف
و به روز ماندن با آخرین پیشرفتها در تحقیقات حملات خصمانه برای بهبود استحکام مدلهای یادگیری عمیق. بسیار مهم است.
صفحه 191:
۶ مفهوم یادگیری مشارکتی چیست؟
یادگیری مشارکتی یک رویکرد یادگیری ماشینی توزیع شده است که مدل های آموزشی را در متیع داده غیرمتمرکز بدون نیا به متمرکز شدن داده ها
در یک مکان واحد را امکان پذیر می کند. در یادگیری مشارکتی . فرآیند آموزش در دستگاههای لبه یا سرورهای محلی که دادهها در آنجا تولید
میشهند. مانند گوشیهای هوشمند. دستگاههای 10یا سرورهای محلی در یک سازمان صورت میگیرد. ایده اصلی لین است که به جای انتقال داده
ها به یک سرور مرکزی, الگوریتم یادگیری را به داده ها بياوريم.
مفهوم یادگیری مشارکتی شامل اجزای کلیدی زیر است:
۱ داده های توزیع شده: در یادگیری مشارکتی . داده ها در چندین دستگاه یا سرورهای محلی توزیع می شوند. هر دستگاه يا سرور داده های خود را
به صورت محلی نگهداری می کند و داده ها بدون ارسال به سرور مرکزی برای آموزش روی دستگاه یا سرور بقی می ماند.
۲.به روز رسانی های مدل محلی:به جای ارسال داده های خام به سرور مرکزی. هر دستگاه یا سرور با استفاده از داده های محلی خود به روز رسالی
های مدل محلی را انجام می دهد. لین بهروزرسانیهای محلی شامل محاسبه گرادیانها یا بروزرسانیهای مدل بر اساس دادههای محلی با استفاده از
یک الگوریتم بهینهسازی. مانند نزول گرادیان تصادفی (5)3]0) است.
۲ تجمیع بهروزرسانیهای مدل: پس از بروزرسانیهای مدل محلی بهجای اشتراک گذاری دادههای خام. فقط بهروزرسانىهايا كراديانهاى مدل به يك
سرور مرکزی ارسال میشوند که معمولاً جمع کننده یا هماهنگ کننده نامیده میشود. 9۲6931:0۳ ۸0 بهروزرسانیهای مدل را از دستگاهها یا سرورها
گردآوری می کند و آنها را جمعآوری میکند تا یک بهروزرسانی مدل سراسری ایجاد کند.
صفحه 192:
VF ادامه...؟
۴ فرآیند تکراری: یادگیری مشارکتی معمواًثامل چندین دور یا تکرر از به روز رس
دستكادها يا سرورها بازكردانده میشود و این فرآیندبه طور مکرر برای اصلاح مدل نکرار میشود
و تجمیع مدل محلی است.بروزرسانی مدل سراسری به
مزایای یادگیری مشارکتی شامل حفظ حریم خصوصی است. زیرا داده های حساس در دستگاه ها یا سرورهای محلی باقی می مانند و خطر نقض داده
ها یا نقض حریم خصوصی را کاهش می دهد. یادگیری مشارکتی همچنین امکان آموزش بر روی حجم زیادی از داده های توزیع شده را بدون نياز به
انتقال داده ها به يك سرور مركزى. كاهش بهناى باند مورد نياز و رسيدكى به مسائل مريوط به مالكيت و انطیاق داده ها را فراهم می کند.
یادگیری مشارکتی در حوزه های مختلف از جمله دستكاه هاى تلقن همراه. مراقبت هاى بهداشتى. مالى و اينترنت اشيا كاريرد دارد. اين كار دامكان
یادگیری مشاركتى در منابع داده غیرمتمرکز را فراهم میکند و به سازمانها يا افراد |.
خصوصی و مالکیت دادهها را حفظ کنند.
ره میدهد از دانش مشترک بهره ببرند و در عين حال حریم
توجه به این نکته مهم است که یادگیری مشارکتی چالشهای خاص خود را مانند برخورد با ناهمگونی در دادههای محلی؛ پرداختن به مسائل ارتباطی و
هماهنگسازی, و اطمینان از کیفیت و نمایندگی مدل سراسری معرفی میکند. محققان و متخصصان به کشف تکنیکهایی برای غلبه بر این چالشها و
بهبود کارایی و اثربخشی یادگیری مش رکتی ادامه میدهند.
صفحه 193:
۷ بادگیری مشارکتی چگونه به آموزش مدل های یادگیری عمیق بر روی داده های غیرمتمرکز کمک
کند؟
می
یادگیری مشارکتی چندین مزیت را برای آموزش مدل های یادگیری عمیق بر روی داده هاى غيرمتمركز ارائه مى دهد:
۱.حفظ حریم خصوصی: یادگیری مشارکتی مدل های آموزشی را قادر می سازد بر روی داده های غیرمتمرکز در حالی که داده ها محلی و خصوصی نگه
می دارند.اجرا شود. بهجای ارسال دادههای خام به سرور مرکزی» بهروزرسانیها یا گرادینهای مدل محلی به اشتراک گذاشته میشوند. این رویکرد
خطر افشای داده های حساس را به حداقل می رساند و نگرلنی های مربوط به حفظ حریم خصوصی مرتبط با جمع آوری و ذخیره سازی متمرکز داده
ها را پرطرف می کند.
۲. حاکمیت داده:با یادگیری مشارکتی. داده ها روی دستگاه ها یا سرورهایی که در آن تولید می شوند باقی می مانند و به افراد یا سازمان ها اجازه می
دهد تا کنترل داده های خود را حفظ کنند. لین امربه ویئه در سناریوهایی که قوانین مربوط به مالکیت داده و انطباق آنها حیلتی است. مانند داده های
ت هاى بهداشتى يا مالى؛ بسیار مهم است.
sla
۳ مقیاس پذیری و کارایی: یادگیری مشارکتی امکان آموزش بر روی حجم زیادی از داده های غیرمتمرکز را بدون نیاز به انتقل داده ها به سرور مرکزی
فراهم می کند. این امر نیاز به بهنای باند را کاهش میدهد و هزینههای ارتباطی را به حداقل میرساند و در مقایسه با رویکردهای متمرکز ستتی,
مقیاس پذیرتر و کرآمدتر میشود.
۴ یادگیری مشارکتی: یادگیری مشارکتی همکاری و اشتراک دانش را در بین صاحبان داده های متعدد امکان پذیر می کند. با تجمیع بهروزرسانیهای
مدل محلی از دستگاهها یا سرورهای مختلف یک مدل سراسری میتوان آموخت که از دانش جمعی در منایع داده غیرمتمرکز بهره میبرد.
صفحه 194:
۷ ادامه..؟
۵ استحکام و تعمیم: آموزش مدل های یادگیری عمیق بر روی منبع داده های متنوع و غیرمتمرکز می تولند استحکام و قابلیت های تعمیم مدل ها را
قرایی ده تبوع ادها ور دس گهها مان پرهان Gents eds = Lea بای وب و یی متل برای هم ادههای جدی دنه که
کمک کند.
۶ محاسبات لبه: یادگیری مشارکتی به ویژه برای سناریوهای محاسبات لبه ای که داده ها در دستگاه های لبه تولید می شهند. مانند دستگاه های تلفن
با آموزش مدلهای محلی بر روی دستگاههای لبه,یادگیری مشارکتی نیاز به ارتباط مکرریا سرور مرکزی را
eee one
همراه یا دستگاه های ۲ 0 مناسب
۷ کارایی داده: یادگیری مشارکتی کارایی داده را با استفاده از منابع داده محلی ارتقا می دهد. بهجای تکیه صرفاً بر یک مجموعه داده متمرکز: مدلها را
میتون بر روی طیف وسیعتری از منبع داده آموزش داد و تغييرات بيشترى را درك كرد و عملكرد مدل را افزايش داد.
یادگیری مشارکتی مزاياى مالكيت داده هاى غيرمتمركز و يادكيرى مشاركتى را در كنار هم مى آورد و در عين حال به نگرانی های مربوط به حريم
خصوصى و مقياس بذيرى مى بردازد. اين كار به سازمان ها يا افراد اجازه مى دهد ا از هوش جمعى داده هاى غيرمتمركز بهره ببرند و در عين حال
حریم خصوصی داده ها را حفظ کرده و کنترل داده ها را حفظ کنند.
صفحه 195:
۸ مفهوم مدل های مولد برای تشخیص ناهنجاری را توضیح دهید.
مدلهای مولد برای تشخیص ناهنجاری, به استفاده از مدلهای مولد. معمولاً مبتنی بر یادگیری عمیق برای شناسایی ناهنجاریها یا نقاط پرت در
دادهها اشاره دارد. تشخیص ناهنجاری شامل شتاسایی الگوها یا نمهنه هایی است که به طور قلبل توجهی از هنجار یا رفتار مورد انتظار در یک مجموعه
داده متحرف می شوند.
مفهوم مدلهاى مولد براى تشخيص ناهنجارى. ريشه در اين ايده درد که داددهاى عادی را میتوان به طور موثر مدلسازی و ولید کرد. در حللی که
ناهنجاریها از الگوهای آموختهشده منحرف میشهند و احتمال کمتری وجود دارد که با دقت توسط مدل تولید شوند. با آموزش یک مدل مولد بر روی
دادههای معمولی. مدل یاد میگیرد که الگوها و توزیعهای زیربنایی دادهها را درک کند و به آن اجازه میدهد نمونههای جدیدی تولید کند که مشلبه
دادههای آموزشی هستند.
در طول مرحله تشخیص ناهنجاری, از مدل مولدبرای تخمین احتمال یا خطای بازسازی یک نمونه معین استفاده می شود. اگر نمونه ای دای احتمال
كم يا خطلى بازسازى بالا باشد. به عنوان يك ناهتجارى يا مورد دور از ذهن در نظر گرفته می شود
انواع مختلفى از مدل هاى مولد براى تشخيص ناهنجارى استفاده شده است. از جمله:
۱ رمزگذارهای خودکار متغیر (۷۸۸25): ۷/۸۶ ها مدل های مولد عمیقی هستند که نمایش نهفته داده های ورودی را ياد مى كيرند. با آموز,
عاقلا بر روی داههای معمولى مدل ياد م ى كيرد كنه داددها را هر يك فضاى .ينهان رمزكتارى كند و آنها را يراى بازسازىدادمهلى اصلى دوياره
رمزگشایی کند. ناهنجاری های با خطای بازسازى يالا به عنوان نقاط برت شناسايى مى شوند.
صفحه 196:
۸ ادامه...
۲ شبکه های ملد تخاصمی (3۸(/5)): [3/۵) ها از یک شبکه مولد و یک شبکه متمایزگر تشکیل شده اند. مولد یاد می گیرد که نمینه هایی تولید
کند که شبیه داده های آموزشی هستند. در حالی که متمایزگر بین نمونه های واقعی و تولید شده تمایز قائل می شود. ناهنجاری ها را می توان با اندازه
گیری ناتوانى متمايزكر در تمايز بين داده های واقعی و تولید شده شناسایی کرد.
۳رمزگذارهای خودکر: رمزگذارهای خودکار. شبکه های عصبی هستند که یاد می گيرند داده های ورودی خود را بارسازی كنند. با آموزش يك رمزگذار
خودکار بر روی دادههای معمولی. یاد میگیرد که دادهها را به صورت نمایشی با ابعاد پایینتر رمزگذاری کرده و آن را برای بازسازی دادههای اصلی
رمزگشایی کند. ناهنجاری هایی با خطای بازسازی بالا به عنوان ناهنجاری شناخته می شوند.
۴مدلهای جریان نرمال سازی: مدلهای جریان نرمال sil مدلهای تولیدی هستند که میتوانتد وزیعهای بيجيده را در دادهها ثبت کنند. با
آموزش یک مدل جریان نرمال سازی بر روی داده های عادی توزیع زیرنلیی را یاد می گیرد. ناهنجاری ها را می توان یا اندزه گیری احتمال يك نمونه
همین تحت توزیع آموخته شذه شناسایی کرد.
مدلهای مولد یرای تشخیص ناهنجاری به دلیل توانلییآنها در درک الگوها و توزیعهای پیچیده دادههای معمولی محبوبیت پیدا کردهند. این مدلها می
توانند ناهنجاری ها را در جوزه های مختلف. از جمله تشخیس تقلب. تشخیص نفوذ شبکه. تشخیص پزشکی و کنترل کیفیت متمتی شناسایی کنند با
ين حال. توجه به اين نكته مهم است که مدلهای مولد ممکن است در تشخیص ناهنجاریهای نادر یا جدید که به طور قابلتوجهی با دادههای
اوت است. با چالشهایی مواجه شوند. تحقیقات و پیشرفتهای مداوم در تکنیکهای مدلسازی تولیدی با هدف بهبود دقت و استحکام
آموزشی
روشهای تشخیص ناهنجاری انجام میشود.
صفحه 197:
.٩ چند مدل مولد محبوب برای تشخیص ناهنجاری را نام ببرید.
چندین مدل مولد محبوب برای تشخیص ناهنجاری استفاده شده است. در اینجا چند نمونه آورده شده است:
۱. رمزگذارهای خودکار متغیر (0۷//]5): ۷۸۸۴ هابه طور گسترده برای تشخیص ناهنجاری استفاده می شوند. لین مدلها یاد می گیرند که داده های
ورودی را در یک فضای پنهان رمزگذاری کنند و ن را برای بزسازی داده های اصلی رمزگشایی کنند. نهنجاری هایی با خطای بازسازی بل برت در
نظر گرفته می شوند.
۲ شبکه های مولد تخاصمی ((65۸۵): 3۸0(۷) ها همچنین برای وظایف تشخیص ناهتجاری به کار رفته اند. شبکه مولد یاد می گیرد که نمینه هلیی
شبیه به داده های آموزشی تولید کند. در حللی که شبکه متمایزگر بین نمنه های واقعی و تولید شده تملیز قلثل می شود. ناهنجاری ها را مى
ان بر
اساس ناتوانى متمايزكر در تشخيص داده هاى واقعى و توليد شده شناسايى كرد.
۳ رمزگذارهای خودکار: رمزگذارهای خودکار: شبکه های عصبی هستند که یاد مى كيرند داده هاى ورودى خود را بازسازى كنند. با آموزش يك
رمزكذار خودكار بر روى داددهاى معمولى. مدل ياد مىكيرد كه داددها را به صورت ویژگی با ابعاد بايينتر رمزكذارى كرده و لن را براى بازسازى
دادههای اصلی رمزگشایی کند. ناهنجاری ها را می توان بر اساس خطای بازسازی بالا تشخیص داد.
صفحه 198:
9 ادامه..؟
۴. مدلهای مولد عمیق: مدلهای مولد عمیق مانند ماشینهای بولتزمن عمیق (081۷])» شبکههای باور عمیق (08۷) و شبکههای تصادفی مولد
aati ely pi (GSN) ناهنجاری استفاده شدهاند. این مدلهاء الگوها و توزیعهای پیچیده دادههای عادی را ثبت میکنند و میتوانتد ناهنجاریها
را بر اساس تخمين احتمال با خطای بازسازی شناسایی کدند.
۵. مدلهای جریان عادی: مدلهای جریان عادی. مدلهای تولیدی هستند که یک سری تبدیلهای معکوس را برای نگاشت یک توزیع ساده (مثلاً
گاوسی) به یک توزیع داده پیچیده یاد میگیرند. این مدلها برای تشخیص ناهنجاری با تخمین احتمال یک نمونه معین تحت توزیع آموخته شده.
استفاده شده اند
#۶ماشین های بردار پشتیبان یک کلاسه (6۷/1۷)اگرچه مدل های مولد به معنای دقیق آن نیستند. ٩۷۷ های یک کلاسه اغلب برای تشخیص
ناهنجاری استفاده می شوند. لین مدلها یک مرز تصمیم گیری در اطراف نمونه های داده معمولی را ید می گیرند و ناهنجاری هلیی که خارج از لين مرز
قرار می گیرند به عنوان نقاط پرت طبقه بندی می شوند.
کی سل هی ولد تقاط فرب و yg ely clog را لليف تس شار الي اف سل مه یوهای خاسس رنه م ویوگی های ناد
ها پستگی دارد. ارزيلبى و مقايسه مدل هاى مختلف توليدى بر اساس عملكرد. مقياس يذيرى و استحكام آنها براى اطمينان از تشخيص ناهنجارى موثر.
د
يار میم
صفحه 199:
۰ مفهوم تقطیر دانش در بادگیری عمیق چیست؟
تقطیر دانش تکنیکی در یادگیری عمیق است که در ن یک مدل کوچکتر. به نام مدل دانشجویی: براى تقليد از رفتار يك مدل بزركتر و پیچیده قره
معروف به مدل معلم آموزش داده می شود.
هدف از تقطیر دانش, انتقال دانش و قابلیت های تعمیم الگوی معلم به مدل دانش آموز کوچکتر است.
فرآیند تقطیر دانش شامل آموزش مدل دانشجو بر روی یک تابع زیان ترکیبی ااست که شامل دو جزء ااست:
۱. اهداف نرم: مدل معلم در طول آموزش؛ اهداف نرمی را در اختیار مدل دانش آموز قرار می دهد. مدل معلم به جای استفاده از برچسبهای سخت
(بردارهاى :006-1001 ) که معمولاً در یادگیری با نظارت سنتی استفاده میشود. توزیع احتمال را بر روی کلاسها برای هر ورودی تولید میکند. لین
اهداف نرم اطلاعات دقیق تری در مورد روابط بين كلاس ها ارائه مى دهند و می توانند برای هدایت فرآیند یادگیری مدل دانش آموز استفاده شوند.
۲ اهداف سخت: علاوه بر اهداف نرم. مدل دلنش آموز نیزبا استفاده از برچسب های سخت معمیلی از داده های آموزشی. آموزش داده می شود. اهداف
سخت نشاندهنده برچسبهای حقیقت مبنا هستند و برای اطمینان از اینکه مدل دانشآموز یاد میگیرد پیشبینی دقیق در مجموعه آموزشی را
پیاموزد. استفاده میشود.
در طول آموزش. هدف مدل دانش آموز به حداقل رساندن اختلاف بین پیش بینی های خود و اهداف نرم ارائه شده توسط مدل معلم. و همچنین
اختلاف بين بيش بينى های خود و اهداف سحت از داده های آموزشی است. با ترکیب هر دو منبع اطلاعاتى» عدل دانش آموز نه تنها مى آعوزد كه
رفتار الكوى معلم را تقليد كند. بلكه به تنهابى بيش بينى های دقیق را نیز انجام دهد.
صفحه 200:
۰ ادامه...؟
مزایلی تقطیر دانش عبارتند از
۱ فشرده سازی مدل: مدل دانش آموز معمولا کوچکتر و سبک تر از مدل معلم است. تقطیر دانش امکان فشردهسازی مدل. کاهش آثر حافظه و نیازهای
محاسباتی مدل را در عين حفظ یا حتی بهیود عملکرد آن فراهم میکند.
۲ بهبود تعمیم: مدل معلم اغلب یک مدل بزرگتر و قدرتمندتر است که بر روی یک مجموعه داده بزرگتر یا برای مدت طولانی تر آموزش داده شده
است. با انتقال دانش از مدل معلم به مدل دانش آموز. مدل دانش آموز می تواند از قابلیت های تعمیم مدل معلم بهره مند شود و منجر به بهبود
عملکرد در داده های دیده نشده شود.
؟. يادكيرى جمعى: تقطير دلنش را مى توان به عنوان شکلی از یادگیری جممی دید. که در آن مدل معلم به عنوان مجموعه ای از مدل های متعدد
عمل می کند.با تقطیر دانش از مدل معلم. مدل دانشآموز به طور موثر از مجموعه پیشبیتیهای معلم استفاده میکند و در نتیجه استحکام و دقت را
بهبود میبخشد.
تقطیر دانش با موفقیت در حوزه های مختلف از جمله طبقه بندی تصویر, تشخیص اشیاء پردازش زبان طبیعی و تشخیص گفتار به کار گرفته شده
است. این مدل راهی برای استفاده از دانش بدست آمده توسط مدل های بزرگ و پیچیده و انتقال آن به مدل های کوچکتر. امکان یادگیری کارآمد و
موثر در محیط های محدود به منابع راء فراهم می کند.
صفحه 201:
۱ چگونه می توان از تقطیر دانش برای انتقال دانش از مدل بزرگتر به مدل کوچکتر استفاده کرد؟
برایانتقال دانش از یک مدل بزرگتر (مدل معلم) به یک مدل کوچکتر (مدل دانش آموزی) با اسفاده از تقطیردانش, معمولاً شامل مراحل زير مى شود:
١ بيش آموزش مدل معلم: ابتداء مدل معلم بر روى يك مجموعه داده بزرك يا براى مدت طولانى ترى از قبل آموزش داده می شود نا دانش مورد نظر و
قابليت هاى تعميم را به دست آورد. اين مدل معلم به عتوان متبع دانش برای انتقال به الگوی داتش آموز عمل ge کند.
۲.آماده سازی داده های آموزشی: در مرحله بعد. یک مجموعه داده آموزشی آماده مى شود که شامل نمونه های داده های ورودی و برچسب های سخت
مربوط به آنها (برچسب های حقیقت مبنا) است. از همین مجموعه داده می توان برای آموزش مدل های معلم و دانش آموز استفاده کرد.
۳ ایجاد اهداف نرم: با استفاده از مدل معلم از قبل آموزش دیده. اهداف نرم برای مجموعه داده آموزشی تولید می شود. مدل معلم به جای تولید
برچسبهای سخت (بردرهای 0106-1101 ). توزيع احتمال را بر روی کلاسها برای هر نمینهورودی «خروجی میدهد. لین اهداف نرم اطلاعات آموزنده
و ظریف تری را در مورد روابط بين كلاس ها ارائه مى دهند.
۴ آموزش مدل دانشجویی: مدل دانش آموز با استفاده از ترکیبی از اهداف رم و برچسب های سخت آموزش داده می شود. فرآیند آموزش شامل به
حداقل رساندن دو جزء تابع زیان است:
I زیان تقطیر:زیانتقطیر اختلاف بین پیش بینی های مدل دلنش آموز و اهداف نرم الئه شده توسط مدل معلم را اندزه گیری می کند. لین کار الگوی
دانشآموز را تشویق میکند تا رفتر الگوی معلم را تقليد كند و دانش معلم و فرآ يندهاى تصميمكيرى را به دست أورد.
بر
ب زيان آنتروبى متقليل منظم: در کنر زیانتقطیر, مدل دانشجوبی نیز با استفاده از زیانآنتروبی متقلبل منظم آموزش داده میشود و پیشبینیهای آن
را با برچسبهای سخت مقایسه میکند.
صفحه 202:
AY ادامه...؟
مجموعه داده هاى آموزشی این تضمین را مى كند كه مدل دانش آموز ياد مى كيرد كه پیش بینی های دقیقی را در مجموعه آموزشی نیز نجام دهد.
۵ تنظیم دقیق اختیاری» پس از آموزش اولیه. مدل دلنش آموز را می توان با استفاده از فرآیندآموزشی منظم. دقیق تر تنظیم کرد و بارامترهاى مدل
را برای تناسب بهتر با داده های آموزشی تنظیم کرد. این مرحله به مدل دانش آموز کمک می کند تا با ویژگی های خاص مجموعه داده سازگار شود.
با آموزش مدل دانش آموزی با استفاده از ترکیبی از اهداف نرم و برچسب های سخت» تقطیر دلنش, انتقال دانش از مدل معلم به مدل دانش آموز را
تسهیل می کند. اهداف نرم. فرآیند یادگیری مدل دانشآموز را هدلیت میکنند و آن را قادر میسازند تا اطلاعات غنی و قابلیتهای تعمیم الگوی معلم
را به دست آورد. در نتیجه. مدل دانش آموز به یک مدل کوچکتر و کارآمدتر تبدیل می شود که می تولندرفتار مدل معلم بزرگتر را تقريب بزند وبه
تنهایی پیش بینی های دقیقی انجام دهد.
توجه به لین نکته مهم است که جزئیات اجرای خاص تقطیر دانش ممکن است بسته به معماری و چارچوب مورد استفاده متفاوت باشد. استراتژیهای
تنظیم دقیق, مقیاسبندی دماء و تکنیکهای دیگر نیز میتوانند برای بهینهسازی فرآیند انتقال دانش و بهبود عملکرد مدل دانشآموز استفاده شوند.
صفحه 203:
۳۲ مفهوم یادگیری چند شات را در یادگیری عمیق توضیح دهید.
یادگیری چند شات زیرشاخه ای از یادگیری عمیق است که بر مدل های آموزشی برای شناسایی و طبقه بندی کلاس ها یا اشیاء جدید با داده های
آموزشی برچسب گذاری شده محدود تمرکز دارد. در رویکردهای یادگیری عمیق بسنتی, مقدارزیادی دادهبرچسب گذاری شده برای آموزش موشر
مدلها مورد نياز است. با اين حال. در سناريوهاى دنياى واقعى. جمعآورى تعداد زیادی نمونه برچسبگذاری شده برای هر کلاس جدید میتواند
غيرعملى يا زمانبر باشد. هدف یادگیری چند شات رفع این چالش با توانمندسازی مدلها براییادگیری از تعداد کمی از نمونههای برچسب گذاری شده
مفهوم یادگیری چند شات از لین الهام گرفته شده است که چگینه انسان ها می توانند.به سرعت یاد بگیرند که اشیاء جدید را تنها با چند نمونه یا حتی
یک مثال واحد تشخیص دهند و طبقه بندی کنند. هدف .توسعه الگوریتمها و تکنیکهایی است که به مدلهای یادگیری عمیق اجازه میدهد در
شرایطی که دادههای آموزشی برای کلاسهای جدید کمیاب است. به عملكرد مشابهى دست يايند.
چندین رویکرد برای یادگیری چند شات وجود دارد. اما یک چارچوب رلیج شامل استفاده از یک مجموعه پشتیبلنی و یک مجموعه پرس و جو در طول
آموزش است. مجموعه پشتیبانی شامل تعداد کمی از نمنههای برچسب گذاری شده از کلاسهای جدید است. در حللی که مجموعه پرس و جو شامل
نمونههای بدون برچسب است که مدل روی آنها پیشبینی میکند.
صفحه 204:
۲ ادامه.
در طول آموزش. مدل ياد مى گیرد که از مجموعه پشتیبانی تعمیم دهد و روی مجموعه پرس و جو پیش بینی کند. اين فرآیند را می توان از طریق تکنیک های
مختلفی به دست آورد. از جمله:
۱ یادگیری متریک: هدف روش های یادگیری متریک یادگیری متریک فاصله يا اندازهگیری شباهت است که می تواند به طور موثر شباهت پین نمونه های
يشتيبلنى و برس و جو را مقايسه كند. با تعريف يك متريك مناسب. مدل مى تواند بر اساس شباهت بين نمونه های پشتیبنی و برس و جوبه كلاس هاى جديد
تعميم دهده
. فرا-يادكيرى: فراسيادكيرى يا يادكيرى براى يادكيرئ: بر مدل هاى آموزشى تمركز مى كند تا به سرعت با وظايف يا كلاس هاى جديد با داده هاى مخدود
سازگار شود. هدف الگوریتمهای فرا يادكيرى. يادكيرى فرامدلى اسث كه مىتولند به وظليف يا كلاسهاى مختلف تعميم داده شود و بتولند به سرعت پارامترهای آن
را بر اتلس مجموعه يشتيباتى تطبيق دعد ةا ييشربيتىهاى حقيقى روى مجموطة يرس و جو انجام دهد.
؟اداده افزليى: تكنيك هاى داده افزليى را مى توان sly افزليش مصنوعى تنوع و تغییرپذیری مجموعه پشتیبانی اعمال کرد.بااعمال تبدیل ی اختلال به چند نمونه
يشتيباتى موجوف مدل موتوائد تعميم و بيش بينى مؤئر د, مجموعه يرس و جِواوا بياموزد
؟. مدل هاى مولد: مدل هاى مولد را مى توان براى توليد نموته هاى مصنوعى براى كلاس هاى جديد بر اساس مجموعه يشتيبانى محدود استفاده كرد. با ايجاد
تقاط داده اضافی, مدل می تواند از مجموعه داده های تقویت شده بهره مند شود و عملکرد خود را در مجموعه پرس و جو بهبود بخشد.
آموزش چند شات کاربردهای مختلفی از جمله تشخيص تصوير, تشخيص اشيا و بردازش زبان طبيمى دارد. لين كار مدلها را قدر مساز تاه سرعت کلاسها یا
اشیاء جدید را با دادههای برچسبگذاریشده محدود تطبیق داده و شناسایی کنند. و در شرایطی که جمعآوری دادههای برچسب گذاریشده گسترده برای هر
كلاس جديد چالشبرنگیز ی پهزینه اس ارزشمتد است. تحقیقاتی در یادگیری چند شات با هدف توسعه لگوریتمها و تکنیکهای موثرتربرای رسیدگی به
جلشهاو بو هکره مدا در إين حيط در خال اجام له
صفحه 205:
۳ چند تکنیک برای یادگیری چند شات نام ببرید.
چندین تکنیک براییادگیری چند شات توسعه داده شده است. در اینجا چند ریکرد محبوب وجود داد
1. بادگیری متریک: هدف رویکردهای بلاگیری متریک؛ بادگیری فاصله مناسب یا انازه گیری شياهت پین نمونه ها استد شبکه های اولیه یک
رویکرد یادگیری متریک رایج برای یادگیری چند شات است. در این تکنیک .فضای ویژگی را می آموزد که در آن نمونه هایی از یک کلاس نزدیک
به هم هستند و نمونه هایی از لاس های مختلف از هم دور هستند. در لول استنتح. مدل فواصل بین نمونه های پرس و جو و ویژگی نمونه اوليه
"کاس های چنلا شات را برای پیش بینی مجاسبه می کند.
.0 فرا یادگیری مدل-آگنوستیک (-1/141/11): Ss MAML )9,59 1,5 یادگیری است که هدف ّن یادگیری پارامترهای اولیه است که می تولند به
سرعت با وظایف یا کلاس های جدید با چند مثال برچسب گذاری شده سازگار شود. ]۷1۵۸0 با بهینه سازی برای تطبیق سریع. مدلی را برای
تعمیم یه وظلیف مختلف آموزش می دهد لین تکنیک میک مقداردهی اولیه مخبترک را می آموزد که می تولند با تعداد کمی از مراحل گزادیان در
كارهاى جديد در طول استنتاج .به خوبى تنظيم شود.
۳ مدلهای مولد: مدلهای مولد؛ مانتد شبکههای مولد تخاصمی ((3/۸)) یا رمزگذارهای خودکار متفیر (۷/۸25). میتوانند برای یادگیری چند
شات با تولید نمونههای جدید برای کلاسهای چند شات استفاده شوند. با ایجاد نقاط داده اضافی. مدل می تواند به طور موثر مجموعه داده
برچسب گذاری شده محدود را افزایش دهد و عملکرد خود را در مجموعه پرس و جو بهبود بخشد.
صفحه 206:
۳ دامه....
۴ داده افزایی: تکنیک های داده افزایی را می توان برای افزایش مصنوعی تنوع و تغییرپذیری داده های برچسب گذاری شده محدود به کار برد. با اعمال
تبدیلها, آشفتگیها یا افزودن نمونههایی با ویژگیهای سنتز شده. مدل میتوند تعمیم بهتر و بهبود عملکرد خود را در مجموعه برس و جو بياموزد.
۵ فرا یادگیری یا حافظه: مدل های تقویت شده حافظه. مانند شبکه های حافظه یا ماشین های تورینگ عصبی, می توانند برای یادگیری چند شات
استفاده شوند. این مدل ها دارای یک جزء حافظه خارجی هستند که به آنها امکان ذخیره و بازیلبی اطلاعات وظلیف یا نمونه های قبلی را می دهد با
استفاده از حافظه. مدل مى تواند به سرعت با وظايف يا كلاس هاى جديد با داده های برچسب گذاری شده محدود سازگار شود.
ع مكانيزمهاى توجه: مكانيزمهاى توجه را مىتوان در مدلهاى يادكيرى جند شات براى تمركز بر اطلاعات مرتبط كنجاند. مكانيزمهاى توجه به مدل
کمک مىكنند تابه طور انتخلبى به ويزكىها يا نمونههاى مهم در طول آموزش و استنتاج توجه كند وبه آن اجازهمیدهد تابه طور موثر از دادههای
برچسب گذاری شده محدود استفاده کند و عملکرد مجموعه برس و جو را بهيود بخشد.
لین تکنیکها رویکردهای مختلفی را برای مقابله با چللش یادگیری چند مرحلهای ارلئه میکنند و مدلها را قادر میسازند تا از تعداد کمی از نمونههای
برچسب گذاری شده تعمیم دهند. محققان به طور مداوم در حال کاوش و توسعه تکنیک های جدید برای بهبود عملکرد مدل های یادگیری چند شات و
گسترش کاربرد آنها در حوزه ها و وظایف مختلف هستند.
صفحه 207:
۴ مفهوم فرا یادگیری در بادگیری عمیق چیست
فرا-یادگیری, همچنین به عنوانیادگیری برای یادگیری شناخته می شود.زیرشاخه ای از یادگیری عمیق است که بر روی مدل های آموزشی تمرکز
مى كند تنا سريعاً وظايف يا مفاهيم جديد را با داده های محدود تطبیق دهد و ید بگیر.ايدهکلیدی در پس فرا یادگیری, توسعه الكوريتمها و
معمارىهايى است كه مىتوانند يك داش فراسطحی یا قبل از توزیع وظایف يا مجموعه دادهها را بياموزند. كه سيس مىتوانند يراى كارهاى جديد و
دیده نشده اعمال شوند.
در یادگیری عمیق سنتی. مدلها معمولاً برای عملکرد خوب در یک کار یا مجموعه داده خاص, آموزش داده میشوند. با این حال. آنها اغلب هنگام
مواجهه با وظایف یا دامنههای جدیدی که دادههای برچسبگذاری شده محدود یا در دسترس نیستند. با مشکل مواجه میشوند. فرایادگیری با هدف
غلبه بر این محدودیت با استفاده از مدلهای آموزشی به منظور دستیابی به توانانی یادگیری قابل تعمیمتر است.
مفهوم فا یادگیری را می تون از طریق مولفه های زیر درک کرد
افرآموزش: در طول مرحله فراآموزش, مدل در معرض توزیع وظایف یا مجموعه داده ها قرر می گیرد. هر کار شامل یک مجموعه آموزشی و یک
مجموعه آزمون است. این مدل برای یادگیری از مجموعه آموزشی هر وظیفه و بهینه سازی پارمترهای ن آموزش دیده است تا برای تطبیق سریع و
عملکرد خوب در مجموعه آزمون مربوطه اعمال شود.
۲ فراهدف: فراهدف تلبع هدف است که برای هدایت آموزش مدل استفاده می شود. عملکرد مدل را در مجموعه آزمایشی هر وظیفه اندازه گیری می
کند و برایبه روز رسانی پارامترهای مدل استفاده می شود. فراهدف مدل را تشویق میکند نا مجموعهای از پارامترهای مشترک را بیاموزد که میتوانند
به راحتی با وظایف جدید تنظیم شوند.
صفحه 208:
۴ ادامه..؟
۳ الگوریتم فرا يادكيرى: الكوريتم فرا يادكيرى نحوه به روز رسانی پرامترهای مدل را بر اساس فراهدف مشخص می کند. روشهای مبتبی بر گرادیان»
مانند (30189ع 1163-1 00516و ك8-اع1100) 181/1 معمولاً در فرا یادگیری استفاده میشوند. هدف این الگوریتم ها یافتن یک
مقداردمی اولیهپارامترهای مدل است که می توانتد به سرعت در کارهای جدید در مرحله فراآزمایی تنظیم شوند.
؟. فرآزمیی: در مرحله فراآزملیی, مدل بر روی وظلیف جدید و دیده نشده ای که در مرحله فراآموزشى با آنها مواجه نشده لند. ارزيليى مى شود. توانليى
مدل برای تعمیم و انطباق با وظایف جدید با اندازهگیری عملکرد آن در مجموعههای آزمایشی این وظیف. ازیابی میشود.
هدف فرایادگیری» آموزش مدل هلبی است که می توانند وظلیف با حوزه ها را تعمیم دهند. از چند متال با مقدار کمی داده باد بگیرقد وبه سرعت با
وظلیف جدید و دیده نشده سازگار شوند. با استفاده از دلنش فراسطحی که در مرحله فراآموزشی به دست میآید. فرا یادگیری مدلها را قادر میسازد تا
به طور موثر از دادههاى محدود بياموزند و در وظليف جديد به خوبی عمل کنند. و در سناريوهايى که دادههای برچسبگذاری شده کمیاب يا پرهزینه
هستند. اررشمند مي شوند.
فرا یادگیری در حوزه های مختلفی از جملهیادگیری چند شات. يادكيرى تقويتى: بهينه سازى و طراحى الكوريتم كاريرد بيدا كرده است. فراياد كيرى
يك حوزه تحقيقاتى فعال با هدف توسعه مدل هلیی است که می توانند به طور کارا
سازگار شوند.
مد و موثر از داده های محدود بياموزند و به راحتی با وظلیف جدید
صفحه 209:
AD چگونه می توان از فرا یادگیری برای بهبود عملکرد مدل های یادگیری عمیق استفاده کرد؟
قرايادكيرى را مى توان براى بهبود عملكرد مدل های یادگیری عمیق به روش های مختلفی مورد استفاده قرار داد:
.١ يادكيرى جند شات: فرا يادكيرى مى تولند مدل ها را قادر سازد تابه سرعت كلاس هايا وظايف جديد رابا داده هاى برجسب كذارى شده محدود
وفق دهند و ید بگیرن. با آموزش توزیع وظایف در مرحله فرآموزشی, مدل مجموعهای از بارامترهاى مشترك را میآموزد كه به راحتی میتونند در
مرحله فراآزملیی با وطلیف جدید تنظیم شوند. لین کار به مدل اجازه می دهد نابه خوبی از چند مثال برچسب گذاری شده تعمیم پلبد و عملکرد آن را
در سناریوهای یادگیری چند شات بهبود بخشد.
۲ یدگیری انتقلی: فا یادگیری می تواند با یادگیری دانش فراسطحی یا قبل از وزیع وظایف یا مجموعه داده هء یا گیری انتقالى بهتر را تسهیل کند
دلنش فراآموخته شده را مى توان براى مقداردهى اوليه بارامترهاى مدل مورد استفاده قرار داد. كه سيس مى تولد بر روی یک وظیفه یا مجموعه داده
هدف يه دقت تنظيم شود. اين مقداردهى اوليه به مدل اجازه مى دهد تا از دانش قبلى خود استفاده كند و سريعتر يا وظيفه هدف سازكار شود و به طور
بالقوه عملکرد خود را بهبود بخشد.
۳ بهینه سازی تطبیقی:فرا یادگیری می تولند خود لگوریتم یادگیری را پهینه کند و مدل را قادر می سازد تا فرآیند بهینه سازی خود را با وظلیف یا
مجموعه داده های مختلف تطبیق دهد با آموزش توزيع وظايف با ویژگیهای متفاوت. مدل میتواند ید بگیرد که نرخ یادگیری. منظمسازی یا سایر
هايبربارامترهاى خود را به صورت پویا تطبیق دهد. لین بهینه سازی تطبیقی, كارايى و اثربخشی فرآیند یادگیری را بهبود می بخشد و منجر به بهبود
عملکرد می شود
صفحه 210:
۵ ادامه...؟
۴ یادگیری تقویتی: فرایادگیری را می توان برای وظلیف یادگیری تقویتی ٩1 به کار برد تا ارایی یادگیری را بهبود بخشد. با آموزش توزیع وظایف
RL مدل می تواند سیاستی را بیاموزد که به خوبی به وظایف جدید تعمیم می دهد و به سرعت یا محیط های در حال تفییر سازگار مى شود.
سیاستهای فرا آموختهشده میتوانند نیاز به کاوش گسترده و یادگیری آزمون و خطا را کاهش دهند و منجر به همگرلیی سریعتر و بهبود عملکرد RL
شوند.
بهيته سازى هايبريارامتر: فرا-يادكيرى مى تولند به خودكارسازى فر يند بهينه سازى هايبريارامتر كمك كند.با آموزش انواع وظليف يا مجموعه داده
هاء مدل مى تولند انتخاب هایپرپارامترهای مناسب بر اساس ویژگی های وظیفه يا مجموعه داده را بياموزد. لين دلنش فرا آموخته شده را مى توان براى
هدايت جستجوى هايبربارامترهاى بهينه. صرفه جويى در زمان و منابع در فرآيند تنظيم هايبربارامتر استفاده كرد.
فرايادكيرى جارجوبى را براى مدلهاى آموزشى ارلئه مىدهد تا تواناییهای یادگیری فابل تعمیم رابه دست آورند. سریع با وظلیف یا حوزههای جدید
سازگار شوند و خود فرآیند یادگیری را بهینه کنند. با استفاده از تکنیکهای فرا یادگیری, مدلهای یادگیری عمیق میتوانند عملکرد خود را در
سناریوهایی با دادههای برچسبدار محدود. تتظیمات یادگیری انتقالی. وظایف ٩1 و وظایف بهینهسازی هایپرپارامتر بهبود بخشند. تحقیقات در فرا
یادگیری با هدف توسعه لگوریتمها و معماریهای موثرتر رای بهبود عملکرد مدلهای یادگیری عمیق در حال انجام :
صفحه 211:
۶ مفهوم تطبیق دامنه در یادگیری عمیق را توضیح دهید.
تطبیق دامنه یک زیرشاخه از یادگیری عمیق است که با مشکل انتقال دانش آموخته شده از یک دامنه منبع به یک دامنه هدف که در آن توزیع داده ها
ممکن است متفاوت باشد. سرو کار دارد. به عبارت دیگر, انطباق دامنه یا هدف پرداختن به کاهش عملکرد مدلها هنگام اعمال به یک دامنه جدید یا
دادههای برچسب گذاری شده محدود است.
در سناريوهاى دنياى واقمى. جمعآوری مجموعه داده بزرگ برچسبگذاری شده برای دامنه هدف اغلب چالش برانگیز است. با این حال, اگر یک
مجموعه داده برچسبدار از یک دامنه متبع متفاوت اما مرتبط در دسترس باشد. میتوان از آن برای بهبود عملکرد مدلها در دامنه هدف استفاده کرد.
هدف از تطبیق دامنه. استفاده از داده های برچسب گذاری شده از دامته منیع برای تطبیق مدل با دامنه هدف است.
مفهوم تطبیق دامته را می توان از طریق مولفه های زیر درك كرد
۱ دامنه منبع: دامنه منبع به دامته ای اطلاق می شود که داده های برچسب گذاری شده در آن موجود است و برای آموزش مدل اولیه استفاده می
شود. این دامنه ممکن است توزیع داده. ویژگی ها یا زمینه متفاوتی در مقایسه با دامنه هدف داشته باشد.
۲.دامنه هدف: دامنه هدف به دامنه ای اطلاق می شود که انتظار می رود مدل در آن عملکرد خوبی داشته باشد اما داده های برچسب گذاری شده
مجدود یا در دسترس نیستند. هدف تطبیی مدل آموزشدیده در حوزه سنبع برای عملکرد موثر در دامته هدف است.
alls 7 »تشر قاس یه تقلوت در توزيم ده هایس ناه منم . هدف آشارهدارد لس تقرمی توقد یم دلبل تخیرات در ویدگی های ورودی»
عوامل محیطی. شرليط اكتساب با ساير عوامل خاص يراى هر حوزه ايجاد شود. وجود تغيير دامنه چالشی را در اعمال مستقیم مدلهای آموزشدیده در
دامنه منبع به دامنه هدف ایجاد میکند.
صفحه 212:
۶ ادامه....
۴ تکنیک های تطبیق: تکنیک های مختلفی برای مقابله با مشکل تطبیق دامنه به کار گرفته مى شود. هدف لين تكنيك ها تراز كردن يا انتقال دا
آموخته شده از دامنه منبع به دامته هدف است. برخی از رویکردهای رلیچ عبارتند از همترازی Shey که در آن نملیش ویژگیهای دامنه منبع و هدف
مشابه هستند. و آموزش خصمانه. که در ن یک متمایزگر دامنه معرفی میشود تا مدل را تشویق کند تا ویژگیهایی را تولید کند که دامنهناپذیر
۵. داده های بدون برچسب: در بسیاری از سناریوهای تطبیق دامنه» داده های برچسب دار در دامنه هدف کمیاب هستند. برای غلیه بر این چالش,
میتوان از تکنیکهای تطبیق دامنه بدون نظارت استفاده کرد. که در آمن انطباق فقط یا استفاده از دادههای برچسبگذاری:
دادههای بدون برچسب از دامته هدف انجام میشود.
تطبیق دامنه در کاربردهای مختلفی که در آن مدلهای آموزشدیده شده در یک دامنه بلید در دامنه دیگری اعمال شوند. مهم است. به عنوان مثال» در
بیتایی کامپیوتر. تطبیق دامنه زمانی مفید است که مدلهایی که روی یک مجموعه از تصاویر آموزش داده شدهاند. باید روی مجموعهای از تصاویر
گرفتهشده در شرایط مختلف یا از منیعی متفاوت اعمال شوند. با تطبیق موثر مدل ها در دامنه هدف تطبیق دامنه باعث بهیود عملکرد و تعمیم در
برنامه های کاربردی دنیای واقعی می شود.
صفحه 213:
AV چند تکنیک برای تطبیق دامنه نام ببرید.
چندین تکنیک یرای تطبیق دامنه وجود دارد که هدف آنها حل چالش انتقال دانش از یک دامنه متبع به یک دامنه هدف یا توزیع داده های مختلف است. در اینجا
چند تکنیک محبوب وجود دارد:
.١ روشهاى مبتتى بر ویزگی: روسهای مج بر ویزگی بر تراز كردن تمايثرهلى ويزكىهاى دإمنه مدبع و هدف تمركز دارند. هدف اين روشها يلفتن غضاى ويذكى
مشترك است كه در آن توزيعهاى دو دامنه همبوشلنى دارند. برخى از تكنيك هاى رليج عبارتند از: حداكثر اختلاف میانگین (۷10]0), تجزیه و تحلیل مولفه اصلی
(048©). و تجزيه و تحليل همبستكى متعارف (008©). اين روشها مويزكى هاى آموختهشده را تشويق مىكنند كه دامنهاى متغير يا تطبيقى با دامنه داشته باشند.
اميزش خصمائه: آهوزش عصمانه یک رویکرد محبوب برای تطییق دامنه است که اغلب در ترکیس با يادكيري عميق استفاده مى شود در اين رويكرد ياك
متمایزگر دامنه در کنار مدل وظیفه اصلی. معرفی میشود. متمایزگر دامنه سعی میکند بین نمونههای منبع و هدف بر اساس نمايش ويزكىهايشان تمايز قائل شود.
در حللی که وظیقه اصلی مدل تولید ویژگیهلیی است که توسط متمایزگر دامته قلبل تشخیص نیستند. لین آموزش خصمانه مدل را تشجیق می کند تا ویژگی های.
ناستقیر دامنه را بیموزد
۲ روشهای مبتنی بر نمونه: هدف روشهای مبتنی بر نمونه. وزندهی مجدد يا انتخاب نمونهها از دامنه منبع برای شبیهتر کردن آنهابه دامنه هدف است. لین کار
را می توان با اختصاص وزن های بالاتر بهنمونه های منبع که مشابه تموته های هدف هستند یا با انتخاب زیرمجموعه ای از نمونه های منبع که پیشترین ارتباط را با
دامنه هدف دارند یه دست آورد. برخی از تکنیک ها عبارتند از اهمیت وزن, خودآموزی, و آموزش مشترک:
صفحه 214:
۷ ادامه...
۴بازسازی دامنه: هدف روش های بازسازی دامنه بازسازی داده های دامنه منبع با استفاده از داده های دامنه هدف است. ایده این است که یک نقشه
برداری از دامنه هدف به دامنه منبع را یاد بگیرید و سپس نمونه های دامنه منبع رابا استفاده از لین نگاشت بازسازی کنید. با به حداقل رساندن زیان
بازسازی, مدل می تواند دو دامنه را تراز کند و نمایش های نامتفیر دامنه را ياد بكيرد.
۵. آموزش انتقللی: تکنیکهای یادگیری انتقللی. مدلهای از پیش آموزشدیدهشده در دامنه متبع را برای مقداردهی اولیه یا تنظیم دقیق مدل در دامنه
هدف, به کار میگیرند. ایده لین است که دانش آموخته شده را از دامنه منبع به دامنه هدف منتقل کنید. وبه مدل اجازه دهید با یک مقداردهی اولیه
خوب شروع کند یابه سرعت با دامنه هدف سازگار شود. تکنیکهلیی مانند تنظیم دقيق. جراحی شبکه و تقطیر دلنش معمولاً در یادگیری انتقللی برای
تطبیق دامنه استفاده میشوند.
۶ تطبیق دامنه بدون نظارت: هدف تکنیک های تطبیق دامنه بدون نظارت تطبیق مدل ها پا دامنه هدف تنها با استفاده از داده های برچسب دار از
دامنه منبع و داده های بدون برچسب از دامنه هدف است. این روشها معمولاً از تکنیکهای یادگیری بدون نظارت مانند خوشهبندی, خودآموزی یا
مدلهای مولد برای تراز کردن دو دامنه و یادگیری نمایشهای نامتفیر دامنه بدون تکیه بر برچسبهای دامنه هدف استفاده میکنند.
این تکنیکها رویکردهای مختلفی را برای رسیدگی به مشکل انطباق دامنه با همسو کردن توزیعهای ویژگی, به حداقل رساندن اختلاف دامنه. یا
استفاده از استراتژیهای یادگیری انتقللی ارلئه میکنند. انتخاب تکنیک به ویژگیهای خاص دامنه متبع و هدف. در دسترس بودن دادههای برچسبدار
یا بدون برچسب و پیچیدگی کار تطبیق بستگی دارد. محققان به کشف و توسعه تکنیکهای جدید برای بهبود عملکرد روشهای انطباق دامنه و
کاربردیتر کردن آنها در ستاریوهای دنیای واقعی ادامه میدهند.
صفحه 215:
۸ مفهوم تطبیق دامنه بدون نظارت چیست؟
تطبیق دامنه بدون نظارت؛ تکنیکی در بادگیری عمیق است که هدف لن اتطباق مدل آموزش دیده در یک دامنه منبع برای عملکرد خوب در دامته
هدف بدون استفاده از داده های برچسب گذاری شده از دامنه هدف است. این تکنیک به چالش تفییر دامنه. که در آن توزیع داده در دامنه هدف با
کلسته منم متفاوت است. مى پرنازد.
ایده اصلی پشت تطبیق دامنه بدون نظارت. استفاده از داده های برچسب گذاری شده از دامنه منبع و داده های بدون برچسب از دامنه هدف برای
یادگیری ویژگی های نامتفیر دامته است. قرض بر لین است. که اگرچه توزیع برچسبها همکن است بین دو دامنه متفلوت باشد. الگوها یا ساختارهای
زیربنایی مشترکی وجود دارد که میتوانند برای بهبود عملکرد در دامنه هدف مورد استفاده قرار گيرند.
فرآیند تطبیق دامنه بدون نظارت معمولاً شامل مراحل زیر است:
). آموزش دامته منبع: یک مدل یادگیری عمیق بر روی داده های برچسب گذاری شده از دامنه منبع با استفاده از تکنیک های یادگیری نظارت شده
استاندارد آموزش داده مى شود. اين مدل اوليه ياد مى كيرد كه در وظيفه دامنه منبع به خوبی عمل کند.
استخراع ويركى: مدل از بيش آموزش داده شده سبس برای استخراج تمایش ویزگی ها از دامنه متیع و داده های دامته هذف بدون برچسب لستفاده
می شود. هدف لین است که ويزكىهايى را ياد بكيريم که برای وظیفه متمایز هستند. اما در دامنه نامتغیر نیز هستند. و ویژگیهای مشترک را در بین
دامنهها درک میکنند.
صفحه 216:
AA ادامه...؟
۳ هم ترازی دامنه: تکنیک هایی مانند تراز ویژگی یا آموزش دامنه تخاصمی برای به حداقل رساندن اختلاف بین توزیع ویژگی های دامته منبع و هدف
استفاده می شود. این تکنیکها مدل را تشویق میکنند تا ویژگیهایی را بياموزند كه بين دو دامنه مشابه یا غیرقایل تمایز هستند.
دامنه سپس به عنوان ورودی به طبقه بندی کننده یا مدل دامنه خاص استفاده می شود که بر
۴ تطبیق دامنه هدف: ویژگی های تراز شده یا
روی داده های دامنه هدف آموزش داده مى شود تا مرزهای تصمیم خاص هدف را یاد بگیرد. امید این است که ویژگی های نامتفیر دامنه به خوبی به
دامنه هدف تعمیم داده شود و منجر به بهبود عملکرد شود.
تطبیق دامنه بدون نظارت به ویثّه زمانی مفید است که داده های برچسب گذاری شده در دامنه هدف کمیاب یا گران باشد. یا استفاده از دادههای بدون
برچسب از دامنه هدف. مدل را قادر میسازد تا با دامنه هدف سازگار و تعمیم یابده حتی زمانی که نظارت مستقیم در دسترس نیست. تکنیکهای
انطباق دامنه بدون نظارت به طور گسترده در برنامههای کاربردی مختلف مانند بینایی کامپیوتره پردازش زبان طبیصی, و تشخیص گفتار برای رفع
چالشهای تغییر دامنه و بهبود عملکرد مدلها در سناریوهای دنیای واقعی استفاده میشوند.
صفحه 217:
5. جكونه مى توان تطبيق دامنه بدون نظارت را در يادكيرى عميق انجام داد؟
تطبیق دامنه بدون نظارت در يادكيرئ عسيق را مى توان با استقاده از تكنيك هاى مختلف اتجام داد. در اینجا چند رویکرد رایج وجود دارد:
.١ آموزش دامنه تخاصمى: در لين رويكرد. يك متمايزكر دامنه به مدل يادكيرى عميق اضافه می شود. این مدل برای به حداقل رساندن همزمان زیان
کار له عنوان مثال زيان طبقه بندی) و ay حداکثر رساندن زیان تمایز دامنه آموزش داده شده است. متمايزكر دامنه سمى عى كند بين داده های دامنه
منبع و هدف بر اساس نمایش ویژگی های آنها تمليز قائل شود. در حللی که هدف مدل اصلی ایجاد ویژگی هلیی است که توسط متمایزگر دامنه لبل
تشخیص نیستند. این آموزش خصمانه مدل را تشویق می کند تا نمایش های نامتغیر دامنه را بیاموزد.
۲ حداکثر اختلاف میانگین «MMD) ۷1۷10 یک اندازه گیری آماری است که تفاوت بین دو توزیع احتمال را حساب می کند. در تطبیق دامنه بدون
. از ۷/1۷10] می توان برای به حداقل رساندن اختلاف بین توزیع ویژگی های دامنه منبع و هدف استفاده کرد. با به حداقل رساندن زیان
نظار
۷00 مدل تشویق میشود تا نمایش ویژگیهایی را بیاموزد که بین دو دامنه مشابه یا
بل تمایر هستد.
۲خوداموزی: خودآموزی تکنیگی لست که در لن مدل ابتتا بر روی داده های داسه منبم برچسب دار آموزش داده می شود سيسء اين مدل برای
پیشبینی دادههای دامنه هدف بدون برچسب استفاده میشود. پیشبینیهای مطمئن روی دادههای دامته هدف بهعنوان شبه برچسبها تلقی میشوند
و مدل با استفاده از این شبه برچسبهاء به شیوهای نیمهنظارتشده بیشتر آموزش داده میشود. این فرآیند بین تولید شبه برچسب و بازآموزی مدل
تكرار مى شود تا يه تدريج مدل را با دامنه هدف تطبیق دهد.
صفحه 218:
٩ ادامه..؟
Domain-Adaptive Regularization.+ اين تکنیک, اصطلاحات منظم سازی خاص دامنه را در تابع هدف معرفی می کند تا عدم
تغییر دامنه را تشویق کند. به عنوان مثال. مدل را می توان برای به حداقل رساندن اختلاف بین آمار ویژگی های دامنه منبع و هدف. مانند میانگین:
کواریانس؛ یا گشتاورهای مرتبه بالاتره منظم کرد. با ترکیب منظم سازی دامنه خاص, مدل یاد می گیرد که اختلاف دامته را کاهش دهد و با دامته
هدف سازگار شود.
۵ شبکه های مولد تخاصمی (GAN) )3 2/۵) ها می توان برای تطبیق دامنه بدون
استفاده کرد. یک Cul alge Se fold GAN که داده های دامنه منبع رابه دامنه هدف تبدیل می کند و یک متمایزگر که سعی می کند بین داده
های دامته هدق تولید شده و داده های دامته هدف واقمی تملیز قلثل شود با آموزش GAN مولد ياد مى كيرد كه نموته هلبی شببه به دامنه هدف
توليد كند و به طور عوثر مدل رايا دامنه هدف تطبيق دهد.
ارت با یادگیری نقشه برداری از دامنه منبع به دامنه هدف
۶تقطیر دانش: تقطیر دلدش شامل انتقال دانش آموخته شده از یک مدل از پیش آموزش دیده در دامنه منبع به یک مدل جدید آموزش دیده در دامنه
هدف است. مدل از پیش آموزش دیده به عنوان یک مدل معلم عمل می کند و آموزش مدل دامنه هدف را با ارائه برچسب های رم یا نکات دانش
راهنمایی می کند. این مدل دامنه هدف را قادر میسازد تا از دانش آموختهشده در دامنه منبع بهرهمند شود و عملکرد خود را در دامنه هدف بهبود
بخشد.
لین تکنیکها رویکردهای متفاوتی را برای تطبیق دامنه بدون نظارت ارلثه میکنند. با هدف همسو کردن توزیعهای ويزكى. به حداقل رساندن اختلاف
دامنه» یا انتقال دانش از دامنه منبع به دامنه هدف. انتخاب تکنیک به ویژگیهای خاص دامنه هاء دادههای موجود و ماهیت کار تطبیق بستگی دارد.
انتخاب و طراحی دقیق تکنیک مناسب بر اساس الزامات و چالش های خاص مسئله انطباق دامنه بدون نظارت مورد نظر. مهم است.
صفحه 219:
۰ مفهوم یادگیری فعال در بادگیری عمیق را توضیح دهید.
یادگیری فعال مفهومی در یادگیری عمیق و یادگیری ماشینی است که هدف آن كاهش تلاش برچسبگذاری مورد نیز برای آموزش یک مدل با نتخاب
فعالانهترین نمونهها برای حاشیهنویسی است. برخلاف یادگیری نظارت شده سنتی» که در لن همه نمونههای آموزشی از قبل برچس بگذاری میشوند.
یادگیری فعال به مدل اجازه میدهد تا از میان مجموعه دادههای بدون برچسب. کدام نمونهها را انتخاب کند.
فرآیند یادگیری فعال معمولاً شامل مراحل زیر
۱. مقداردهی اولیه: در ابتداء یک مجموعه داده کوچک برچسب گذاری شده در دسترس است که معمولاًبه عنوان مجموعه داده "5660" نامیده می
اس تسوت ده 5660 برای آموزش یک سول یله استفاده می شید
۲ انتخاب نمونه: از مجموعه داده های بدون برچسب نمونه برداری می شود و زیر مجموعه ای از نمونه ها با استفاده از استراتزی انتخاب انتخاب می
شود. استراتژی انتخاب می تولند بر اساس معیارهای مختلفی مانند عدم قطعیت. تنوع؛ یا پوشش نمایندگی باشد. هدف. شناسایی نمونه هلیی است که
برای مدل بسیار آموزنده یا نامطمئن هستند.
۲پرس و جو مدل: نمونه ای انتخاب شده سپس برای حاشیه نویسی یا برچسب گذاری ارسال می شوند. این کار می تواند توسط حاشیه نو
اسانی با متخصصان حوزه انجام شود. مدل از برچسبهای این نمونههای انتخابشده پرس و جو میکند تا مقادیر حقیقت مبثا آنها را به دست آورد
صفحه 220:
۰ ادامه....
۴ بهروزرسانی مدل: نمونههای برچسبگذاریشده جدید در مجموعه آموزشی گنجانده میشوند و مدل با استفاده از مجموعه دادههای بهروز شده
مجددا آموزش دادمه میشود. این مدل بهگونهای تنظیم شده است که اطلاعات بهدستآمده از نمونههای جدید برچسب گذاری شده را در خود جای
۵تکرار: مراحل ۲ تا ۴ به صورت تکراری تکرار می شوند. در هر تکراره مدل نمونه های اضافی را بر اساس عملکرد مدل فعلی و معیارهای انتخاب شده
انتخاب می کند. این فرآیند تکراری تا رسیدن به یک سطح عملکرد رضایت بخش یا تا رسیدن به یک معیار توقف از پیش تعریف شده ادامه می یابد.
ایده کلیدی پشت یادگیری فعال این است که با انتخاب فعالانه آموزنده ترین نمونه ها برای برچسب گذاری, مدل می تولند با نمونه های برچسب دار
کمتر در مقایسه با نمونه گیری تصادفی یا استفاده از یک مجموعه داده برچسب دار ثلبت» عملکرد بهتری داشته باشد. با تمرکز بر نمونه هليى كه برای
مدل نامشخص يا دشوار هستند. یادگیری فعال, به هدف قرار دادن تلاش برچسب گذاری در جایی که بیشترین اهمیت را دارد کمک می کند.
یادگیری فعال به ویژه زمانی مفید است که برچسب گذاری مجموعه دادههای بزرگ زمانبره پرهزینه یا غیرعملی باشد. این کار مدل را قادر میسازد تا از
مقدار کمی از دادههای برچسبگذاریشده در ابتدا بیاموزد و عملکرد خود را با بهدست آوردن انتخلبی برچسبها برای آموزندهترین نمونههاء به صورت
تدریجی بهیود بخشد.
برای انتخاب نموته در یادگیری فعال می توان از استراتژی های مختلفی استفاده کرده مانند نمونه گیری با عدم قطعیت» پرس و جو توسط کمیته. نمونه
گیری متنوع و یادگیری فعال بیزی نتخاب استراتژی به مسئله خاص, داده های موجود و ویژگی های مدل تحت آموزش بستگی دارد. کاریی یادگیری
فعال به استراتزی انتخاب و تعامل بین مدل و فرآیندبرچسبگذاری بستگی دارد
صفحه 221:
۱ چند روش برای یادگیری فعال نام ببرید.
روشها و استراتزیهای مختلفی برای یادگیری فعال وجود دارد که هدف هر کدام انتخاب آموزندهترین نمونهها یرای حاشیهنویسی است. در اینجا چند
روش متداول استفاده می شود:
۱ تمونه گیری عدم قطمیت: این روش نمونه هایی را انتخاب می کند که مدل در مورد آنها نامطمدن است. از عدم قطعیت پیشبینی مدل برای
شناسايى نموندها براى حاشيهنويسى استفاده مىكند. براى مثال. تمونههايى با آنترويى بيشبينى يالا (يعنى مدل در مورد كلاس صحيح مطمن نیست)
یا نمونههایی با استیازات اطمینان پایین را میتوان برای برچسبگناری انتخاب کرد.
۲ 20۳0۳0۲66)-/0116۲۷-8): این روش شامل حفظ مجموعه ای از چندین مدل یا استفاده از تکرارهای آموزشی مختلف از یک مدل است.
مدلهای موجود در کمیته ممکن است مقداردهی اولیه یا اختلال متفاوتی داشته باشند. اختلاف بین مدلها به عنوان معیار عدم قطمیت استفاده
میشود و نمونههایی که مدلها بیشترین اختلاف را دارند برای حاشیهنویسی انتخاب میشوند.
۳ نمونه گیری متنوع: هدف این روش انتخاب نمونه هایی است که طیف متنوعى از توزيع داده ها را پوشش می دهند.تنوع یا نمیندگی نمونه های
انتخاب شده راجه جاى عدم فلعيت أنها در نظار مي كيرد. تموندگیری میتی بر خوشه اكه در آن تموتمها از خوشتعلى مختلف در فضای داده اتتغاب
مىشوند. و نمونهگیری نماینده, كه در لآن نموندها براى نمليش زيركروهها يا كلاسهاى مختلف انتخاب مىشوند. نمونههليى از تكنيكهاى نمونهكيرى
متتو متلق
؟.يادكيرى فعال بيزى: اين روش دانش قبلى در مورد توزيع داده ها را با استفاده از استنتاج بيزى تركيب مى كند. از مدل سازى بيزى براى تخمين
توزيع احتمال بسين بر روى بارامترهاى مدل استفاده مى كند. عدم قطعيت یا به دست آوردن اطلاعات بر اساس توزیع پسین برای انتخاب نمونه
استفاده مى شود. تكنيك هايى مانند يادكيرى قعال بيزى از طريق اختلاف (8/41-10) و تغيير مدل مورد انتظار (1/1600]) در اين دسته قرار مى كيرند.
صفحه 222:
۱ ادامه...
«(اقاه) وطاطجعا ۵ وطنطمعا ۸6۲۷6 ۷۷۱۵۵ 2۱16۲۷-8۷-۵۳۲۱۳۵6۲66): این روش پرس و جو کمیته و یادگیری
فعال را با رویکردهای یادگیری ترکیب می کند. از کمیته ای از مدل ها پرای انتخاب نمونه ها در ابتدا استفاده می کند. سپس از نمونه های انتخاب شده
برای آموزش مدل جدیدی استفاده می شود که به کمیته اضافه می شود. لین فرآیند تکرار می شود و کمیته مدل ها با پیشرفت آموزش تکامل می یلبد
و متنوع تر می شود.
۶ نمونه برداری مبتنی بر تراکم: لین روش نمونه ها را بر اساس چگللی یا نزدیکی آنهابه مرز تصمیم انتخاب می کند. هدف لّن برچسب گذاری نمونه
هلیی است که در مناطق پراکنده یا نامشخص فضای داده قرار دارند. برای انتخاب نمونه می توان از تکنیک های مبتنی بر چگللی مانند :0۳6-56
K-Means clustering و 6۵۲66۵ ۵۱۲6۲ استفاده کرد.
query-by- s,5.5, 45, ¢-.|-Query-By-Committee with Expected Error Reduction (QBC-EER) ۷
6 رابا در نظر گرفتن کاهش خطای مورد انتظار برای انتخاب نمونه گسترش می دهد. کاهش مورد انتظار در خطا یا عدم قطعیت را بر
اساس پیشبینیهای کمیته تخمین میزند.
نمونه هایی که انتظار می رود بیشترین سهم را در کاهش خطا یا عدم قطعیت داشته باشند برای برچسب گذاری انتخاب می شوند.
اینها برخی از روش های gal, برای یادگیری فعال هستند. انتخاب روش به مسئله خاص, داده های موجود. مدل آموزش داده شده و معیارهای انتخاب
مورد علاقه بستگی دارد. مهم است که روش یادگیری فعال را بر اساس ویژگی های مسئله و منابع موجود با دقت انتخاب و انطباق دهید.
صفحه 223:
۳ مفهوم یادگیری مداوم در یادگیری عمیق چیست؟
انسان و حيوان لين توانليى را دارند كه به طور مداوم دلنش و مهارت ها را در طول عمر خود بدست
کنند . به لین تونیی ۰ یادگیری مداوم می گویند . یادگیری مداوم توسط مجموعه ای غنی از مکانیسم های عصبی شناختی که با هم به توسعه و
تخصص مهارت های حسی و حرکتی و همچنین بازیلبی و تقویت حافظه طولانی مدت است. حاصل می شود . بنابرلين: قابليت يادكيرى مداوم براى
سیستم های یادگیری محاسباتی و عوامل مستفل که در دنياى واقعى تعامل دارند و بيوسته جريان اطلاعات را پردازش می کنند . بسیار مهم است
ایند ۰ آن را بهبود ببخشند وبه دیگران منتقل
یادگیری مداوم 16۵3۲۳۱/9 0۷۱61۲۵۵1 مفهومی برای یادگیری الگوی مداوم در تعداد زیادی از وظلیف به صورت متوالی و بدون فراموش کردن
دلنش به دست آمده از وظلیف قبلی است . جلیی که داده های وظلیف قبلی در حین آموزش کارهای جدید دیگر در دسترس نیست . از آنجا که هدف
يادكيرى عميق از بين بردن فاصله بين هوش انسان و ماشین است نیاز به عواسلی که خود را با محیط های در حال توسعه پیوسته سازگار کند بیشتر از
گذشته در حال افزایش است
صفحه 224:
۳ چگونه می توان به یادگیری مداوم در مدل های یادگیری عمیق دست یافت؟
یادگیری مداوم در مدل های یادگیری عمیق را می توان از طریق تکنیک ها و استراتژی های مختلف به دست آورد. در ینجا برخی از رويكردهاى رليج
استفاده می شود:
۱ روشهای مبتنی بر منظمسازی: این روشها: تکنیکهای منظمسازی را برای جلوگیری از فراموشی فاجعهبار معرفی میکنند. تکنیک هایی مانند
تثبیت وزن الاستیک (۴۷/۷6) و هوش سیناپتیک (51) اصطلاحات منظم سازی را به تابع زیان اضافه می کنند که تغییرات در پارامترهای مهم آموخته
شده از وظلیف قبلی را جریمه می کند. با محدود کردن بهروزرسانیهای پارامتر لین روشها به حقظ دانش از وظلیق قبلی در حین انطیاق با وظلیف
جدید کمک میکنند.
۲ روشهای مبتنی بر بازبخش : روشهای مبتنی بر بازپخش, دادههای گذشته را در طول آموزش وظلیف جدید ذخیره و پخش میکنند. دو نوع اصلی
بازبخش وجود دارد: بازيخش مولد و بازپخش نمونه. بازپخش مولد شامل آموزش یک مدل مولد. مانند رمزگذار خودکار متفیر (۷/۵/2) یا شبکه مولد
تخاصمی (63/۵/۷)» برای تولید دادههای مصنوعی شبیه دادههای قبلی است. از سوی دیگر. بازپخش نمونه زیرمجموعهای از نمونههای داده واقعی را از
وظايف قبلى شغيره ع ى كن و لز انها برلى [فورش هر نار دانههای جدید استاده می کند با بررسی مجدد فده
مربوط به وظايف قبلى را در حين يادكيرى وظايف جديد حفظ كند.
اى كذشته. مدل می تواند دانش
۳ معماری های پویا: روش های معماری پویا, معماری مدل را براى تطبيق با وظايف جديد و در عین حال حفظ دانش از وظایف قبلی؛ تطبیق می
دهند. لين روش ها مى تولند شامل افزلیش ظرفیت مدل با افزودن لایه هايا مازول هاى جديد باشد كه به طور خاص برای کارهای جدید طراحی شده
اند. از طرف دیگر, معمارى مدل را مى توان به صورت بويا تطبيق داد و بخش هاى خاصى از شبكه را براى كارهاى مختلف فعال و غيرفعال كرد.
صفحه 225:
۳ دامه..؟
۴ جداسازی بارامتر: هدف روش هاى جداسازى بارامتر. جداسازى بارامترهاى خاص و مشترك در مدل است. پارامترهای وظیفه خاص به وظایف خاصی
اختصاص داده می شوند و پس از یادگیری ثلبت می مانند. در حللى كه بارامترهاى مشترك در بين وظليف به روز مى شوند. اين رويكرد به مدل اجازه
میدهد تا ضمن به اشتراك كذاشتن دانش مشترك در بين وظايف. دانش مربوط به وظيفه را حفظ كند. معمارىهايى مانند شبكه عصبى بيشرونده
(لااللام) و جارجوب (10:ا) /101 6 0 63110 از تكنيكهاى جداسازى يارامترها استفاده م ىكنند.
۵.تقطیر دانش: تقطير دانش شاصل انتقال دانش از مدلى كه قبلاً آموزش ديده(مدل معلم ) به مدل جديدى به نام مدل دانش آموز است. مدل دانش
آموز نه تنها بر روی داده های جدید بلکه بر روی پیش بینی ها یا ویژگی های تولید شده توسط مدل معلم نیز آموزش می بیند. این انقال دالش به
الگوی دانش آموز کمک می کند تا از دانش آموخته شده الگوی معلم بهره مند شود و بادگیری مداوم را تسهیل می کند.
عفرايادكيرى: فرايادكيرى. همجنين به عنوان یادگیری برای یادگیری شناخته می شود. شامل مدل های آموزشی در طیف گسترده ای از وظلیف برای
یادگیری نحوه سازگاری سریع با وظایف جدید است. الگوریتمهای فرا یادگیری یاد میگیرند که با کشف الگوهای رایج و استفاده از اين دانش برای
تطبیق سریع با وظایف جدید با حداقل داده. وظایف را تعمیم دهند.
ايبن رويكردها را مى توان بر اساس الزامات و جالش هاى خاص ستاریوی یادگیری مداوم ترکیب و سفارشی 98 يادكيرى مداوم يك حوزه فعال
تحقیقانی است و پیشرفتهای زیادی ly توسعه تکنیکهای موثرتر و كارآمدتر براى توانمند ساختن مدلهاى يادكيرى عميق بدون فراموش كردن
دانش آموختهشده قبلی. به طور مداوم انجام میشود.
صفحه 226:
AF مفهوم نمونه های متخاصم قابل انتقال را توضیح دهید.
نمونههای متخاصم قلبل انتقال به نمونههای ورودی مخربی اشاره دارد که برای فریب دادن نه تنها یک مدل خاص یادگیری ماشین, بلکه چندین مدل
آموزشدیده بر روی مجموعه دادههای مختلف یا توسط سازمانهای مختلف, طراعی شدهاند. لین نمونهها به دقت با هدف بهرمبرداری از آسیب پذیریها
یا ضعفهای مشترک در چندین مدل ساخته شدهاند و آنها را قابل انتقال میکند.
مفهوم نمینه های متخاصم قلبل انتقال از این مشاهدات ناشی میشود که اختلالات خاص در دادههای ورودی میتولند منجر به طبقهبندی نادرست
نشده باشند یا در
پیشبینیهای نادرست توسط مدلهای مختلف شود. حتی اگر آن مدلها هرگزبه طور مستقیم روی نمونههای متخاصم آموزش داد
معرض آن قرار نگرفته باشند. به عبارت دیگر, نمونه های متخاصم تولید شده برای یک مدل. اغلب می توانند مدل های دیگر را نیز فریب دهند.
نمونههای متخاصم قابل انتقال را میتوان با استفاده از تکنیکهای مختلف, مانند روشهای بهینهسازی مبتنی بر گرا
سریع (۳)۵51۷) یا روشهای تکراری مانند روش تکراری پلیه (8101) تولید کرد. هدف این روشها یافتن آشفتگیهایی در دادههای ورودی است که
خطاى ب
مانند روش نشانه كراديان
بينى مدل را به حداكثر مىرساند يا مرزهاى تصميمكيرى را به كونهاى تغيير مىدهد كه در جندين مدل سازكار باشد.
صفحه 227:
۴ ادامه....
وجود نمونههای متخاصم قلبل انتقال. نگرانیهایی را در مورد استحکام و قابلیت اطمینان مدلهای یادگیری ماشین در برنامههای کاربردی دنیای واقعی
ایجاد میکند. این قضیه نشان میدهد که مهاجم میتولند نمونههای متخاصم ایجاد کند که چندین مدل را به طور همزمان فریب میدهد. که به طور
بالقوه ستجر اه ول
محققان و پزشکان فعالانه روی توسعه مکانیزمهای دقاعی در برابر تمونههای متخاصم قابل انتقال کار میکنند. برخی از استراتژیها شاسل آموزش
جصماه میدودده که در لن مللهاه بر ریی دادههای معمولی و هم بر روی نمونههای متحاصم آموزش دادم میشوند تا امتسکام حود رابود
بخشند. سایر رویکردها بر افزایش قابلیت تفسیر و توضیح مدلها برای شناسایی و کاهش اثرات حملات خصمانه تمرکز دا
پرداختن به چالش نمونههای متخاصم قابل نتقال برای ایجاد سیستمهای یادگیری ماشینی امنتر و قابل اعتمادتر و اطمینان از استقرار آنها در
حوزههای حیاتی مانندمرقبتهای بهداشتی, وسایل نقلیه خودران, و سیستمهای مالی بسیار مهم است.
صفحه 228:
۵ چگونه می توان نمونه های متخاصم قابل انتقال را تولید کرد؟
تمونههای متخاصم قلبل انتقال را مىتوان با استفاده از تکنیکهای مختلفی که از سیب پذیریهای مدلهای یادگیری ماشین استفاده میکنند» تولید
کرد. در اینجا چند روش متداول استفاده می شود:
١ روشهاى مبتنى بر كراديان: روشهاى مبتنى بر كراديان. كراديانهاى تلبع زيان مدل رايا توجه به داددهاى ورودى برای ایجاد آشفتگیهای متخاصم
اعمال میکنند. روش علامت گرادیان سريع (/۳)351۷) یک روش مبتنی بر گرادیان محبوب است که یک اختلال کوچک به داده های ورودی در جهت
علامت گرادیان اضافه می کند. این اختلال برای به حداکثر رساندن خطای پیشبینی مدل طراحی شده است.
۲ روشهای تکراری: روشهای تکراری بر اساس روشهای مبتنی بر گرادیان با انجام تکرارهای متعدد sly اصلاح آشفتگیهای مخللف ایجاد میشوند.
یک مثال. روش تکراری پایه (/510) است که اختلالات کوچک را در چندین تکرار اعمال می کند و در عین حال اطمینان می دهد که داده های
آشقته در محدوده مشخصی از ورودی اصلی باقی می مانند. این فرآیند تکراری,اثربخشی و قابلیت انتقال نمونههای متخاصم ایجاد شده را افزایش
میدهد.
۳روشهای مبتنی بر بهینهسازی: هدف روشهای مبتنی بر بهینهسازی یافتن اختلال بهینه است که خطای پیشبینی مدل را به حداکثرمیرساند و در
عين حال محدودیتهای خاصی را برآورده میکند. یک رویکرد. حمله 260۷۷ (حمله کارلیتی و واگتر) است که تولید نمونه های متخاصم رابه عنوان
یک مسئله بهينه سازى فرموله مى كند. به دنبال اختلالی میگردد که فاصله بین ورودی اصلی و ورودی آشفته را به حداقل میرساند و در عین حال
خطای پیشبینی مدل را به حداکتر میرساند.
صفحه 229:
۵ ادامه..؟
۴حملات جعبه سیاه: حملات جعبه سياه مدل هايى را هدف قرار می دهد که مهاجم برای آنها دسترسی محدودی به پارامترها یا گرادیان های مدل
داشته یا ندارد. یکی از رویکردهای رلیج استفاده از قابليت انتقال براى توليد نمونه هاى متخاصم بر روى يك مدل جایگزین است که براى تقليد از رفتار,
jot عن كد لت
مدل هدف نمونه هاى متخاصم توليد شده مى توانند براى حمله به مدل هدف با نرخ موفقيت بالا مورد استفاده قرار كيرند.
۵ روشهای جمعی: روشهای جمعی شامل ترکیب پیشبینیهای چند مدل براى توليد نموندهاى متخاصم است. يا در نظر كرفتن تصميمات جند
مدل, هدف روشهای جمعی» سوه استفاده از اسیبپذیریهایی است که در مدلهای مختلف مشترک هستند. تمونههای متخاصم که با استفاده از
روشهای جمعی تولید میشوند.قابلیت انتقال بالاترى را نشان میدهند.
توجه به لين نكته مهم است كه توليد نمینه های متخاصم قلبل انتقال می تولند يك كار جللش برانكيز باشد. زيرا نيازبه بهيته سازى دقيق و درك نقاط
ضعف مدل های هدف دارد. علاوه بر لين: اثربخشی و قابلیت انتقال نمونههاى متخاضم توليد شده مىتولند بستهنبه عواملى مانند معماری مدل: مجموعه
دادههای آموزشی و استراتیهای حمله استفادهشده. متفاوت باشد.
تولید نمونههای متخاصم قلبل انتقال, یک حوزه تحقیقلتی فعال است و تلاشهای مستمر بر توسعه تکنیکهای پیشرفتهتر و کارآمدتر برای درک و دفاع
در برایر این حملات متمرکز است و از استحکام و قابلیت اطمینان مدلهای یادگیری ماشین در سناریوهای دنیای واقعی اطمینان میدهد.
صفحه 230:
۶ مفهوم یادگیری صفر شات در یادگیری عمیق چیست؟
یادگیری صفر شات یک پارادليم در یادگیری عمیق است که هدف ن لین است که مدلها را قادر به تشخیص و طبقهبندی اشیا یا مفاهیمی کند که
هرگز مستقیماً برای آنها آموزش ندیده یا در طول آموزش دیده نشدهاند. در یادگیری نظارت شده سنتی» مدلها بر روی دادههای برچسب گذاری شده از
مجموعهای از کلاسهای از پیش تعریفشده آموزش میبینند و فقط میتوانند نمونههای متعلق یه تن کلاسها را طبقهبندی کنند. با این حال» در
یادگیری صفر شات. هدف گسترش قابلیتهای مدل برای شناسایی و طبقهبندی کلاسهای جدید است که بخشی از دادههای آموزشی نبودهند
مفهوم یادگیری صفر شات مبتنی بر لین ایده است که مدل ها می توانند تعمیم و درک رولبط بین کلاس ها یا مفاهیم مختلف را یاد بگيرند. از اطلاعات
کمکی مانند ویژگیهای کلاس یا جاسازیهای معتایی برای پر کردن شکاف بین کلاسهای دیده شده و نادیده استفاده میکند.
در یادگیری صفر شات. مدلها معمولاً با استفاده از ترکیبی از دادههای برچسب گذاریشده از کلاسهای دیده شده و اطلاعات اضافی درباره رولبط بین
کلاسهاء مانند بردارهای کلمه معنایی یا ویژگیهایی که هر کلاس را توصیف میکنند. آموزش داده میشوند. این اطلاعات کمکی به مدل کمک می
کند تا نكاشت بين ویژگی های بصری داده ها و نمایش های معنایی کلاس ها را بیاموزد.
صفحه 231:
۶ ادامه..؟
در طول استنتاج. مدلهای یادگیری صفر شات میتوانشد نمونههایی از کلاسهای جدید را با اعمال نفوذ روایط آموختهشده پین ویژگیهای بصری و
معنایی, شناسایی و طبقهبندی کنند. با استفاده از جاسازیهای معنایی یا ویژگیهای مرتبط با کلاسهای دیده نشده, مدل میتواند درک خود را از
ویژگیهای بصری تعمیم دهد تا حتی برای کلاسهایی که قبلاً با آنها مواجه نشده بود. پیشبینی کند.
یادگیری صفر شات کاربردهای عملی در سناریوهایی دارد که در آنن به دست آوردن داده های برچسب دار برای همه کلاس های ممکن دشوار یا
پرهزینه است. مدلها را قدر میسازد نا نونهای کلاسهای جدید را بدون نیز به آموزش مجدد بر روی مقادیر زیادی از داددهاى برجس ب كذارى شده
تطبیق و طبقهیندی کنند.
تکنیک ها و رویکردهای مختلفی برای یادگیری صفر شات توسعه داده شده است. از جمله روش های مبتنی بر جاسازی؛ روش های مبتنی بر ویژگی و
مدل های تولیدی. هدف این تکنیکها بهبود توانلیی مدل برای تعمیم و انتقال دلنش از کلاسهای دیده شده به کلاسهای دیده نشده. گسترش دامنه
قابلیتهای طبقهبندی آن
صفحه 232:
۷ چگونه می توان آموزش صفر شات را انجام داد؟
یادگیری صفر شات را می توان با استفاده از تکنیک ها و رویکردهای مختلف انجام داد. در اینجا چند روش رایج مورد استفاده در یادگیری صفر شات
آورده شده است:
ا. روشهای میتنی بر ویژگی: این رویکرد بر ویژگیها متکی است که توصیفهای معنایی یا ویژگیهای مرتبط با هر کلاس هستند. ویژگی ها می توانند
مقادیربیتری (حضور یا عدم حضور) یا پیوسته (کمی) باشند. در طول آموزش, مدل یک نقشه برداری بین ویژگی های بصری داده ها و نملیش ویژگی
ها را می آموزد. در زمان استنتاج. مدل میتولند نمونههلیی از کلاسهای جدید رابا مقایسه ویژگیهای بصری آنها با ویژگیهای مشخصه شناختهشده؛
طبقهبندی کند.
۲ روشهای جاسازی معتلیی: در لین رویکرد. هر کلاس با یک جاسازی معنایی» معمولاً به شکل یک بردار در یک فضای معتلیی با ابمادبالا نشان داده
میشود. این جاسازی هاء روابط معنایی بین طبقات را نشان میدهند. در طول آموزش. مدل یاد میگیرد که ویژگیهای بصری را با جاسازی های
معنایی ترسیم کند. در زمان استنتاج, مدل میتواند نمونههایی از کلاسهای جدید را با مقایسه ویژگیهای بصری آنها با جاسازی های معنابی
کلاسهای شناختهشده طبقهبندی کند.
صفحه 233:
۷ ادامه..؟
۳ مدلهای مولد: مدلهای مولد. مانند شبکههای مولد تخاصمی (/3/0)) یا رمزگذارهای خودکار متفیر (۷/۵]25). میتوانند برای یادگیری صفر شات
استفاده شوند. لين مدل ها ياد مى كيرند كه نمونه هاى جدید را بر اساس توزیع کلاس های شناخته شده تولید کنند. در طول استنتاج. مدل می تولند
نمونه هایی از کلاس های جدید تولید کند و آنه را بر اساس شباهت آنها به نمونه های تولید شده طبقه بندی کند.
۴ روش های مبتنی بر گراف دانش: این رویکرد کلاس ها و روابط آنها را به عنوان یک گراف دانش نشان می دهد. گراف شامل گرههایی است که
کلاسها را نشان میدهند و یالهایی که روابط بین کلاسها را نشان میدهندلبه عنوان مثال. رولبط 51106۲61855-511061355 یا شباهتهای
معنایی). مدل یاد می گیرد که بر اساس اطلاعات موجود در گراف دانش استدلال کند و پیش بینی کند.
۵. روشهای ترکیبی: روشهای ترکیبی چندین منبع اطلاعات مانند ویژگیها. جاسازیهای معنایی و دادههای کمکی را ترکیب میکنند تا عملکرد
یادگیری صفر شات را افزایش دهند. ین روشها از نقاط قوت مکمل رویکردهای مختلف. برای بهبود توانایی مدل در تشخیص و طبقهبندی کلاسهای
جدید استفاده میکنند.
توجه به لین نکته مهم است که یاد
ی صفر شات یک حوزه تحقیقاتی فعال است و تکنیکها و رویکردهای جدید به طور مداوم برای بهبود عملکرد
مدلهای یادگیری صفر شات در حال توسعه هستند. انتخاب روش به مجموعه داده های خاص, اطلاعات موجود و عملکرد مطلوب در وظایف طبقه
بدی هفر شلت بستگی دارد
صفحه 234:
۸ مفهوم شبکه های کانولوشن گراف د[63) را توضیح دهید.
شبکه های کانولوشن گراف (ل|3)7)) نوعی شبکه عصبی هستند که برای پردازش داده های ساختار یافته به صورت گراف طراحی شده اند. گراف ها
ساختارهای ریاضی هستند که از گره هلیی تشکیل شده لند که توسط یال هابه هم متصل شده لند. جلیی که هر گره نشان دهنده یک موجودیت و هر
یال نشان دهنده یک رابطه یا ارتباط بین موجودیت ها است. هدف (32) ها درک و استفاده از اطلاعات ساختاری موجود در گراف ها برای انجام
وظایفی مانند طبقه بندی گره هاء پیش بینی پیوندها و طبقه بندی در سطح گراف است.
مفهوم 6 ها از شبکه های عضبى كانواوشن (ل الا ©) مورد استفاده در بردازش تصوبر الهم گرفته شده است. در لها لابههای کنولوشن
فیلترهیی رابهنواحی محلی میک تصویر ورودی اعمال میکنند تا ویژگیها را استخراج کنند و رویط فضلیی را د
عملیات کانولوشنی بر روی گرهها در یک گراف انجام میشود تا اطلاعات همسایگان محلی آنها را جمعآوری کند و وابستگیهای رابطهای را درک کند.
رک کنند. به طور مشلبه. در لام تهاء
ایده اصلی پشت !362) هاء تعریف عملیات کانولوشنی روی گراف ها با انتشار اطلاعات از گره های همسایه برای به روز رسانی نملیش گره های هدف
است. این اسر از طریق یک طرح ارسال پیام به دست می آيده که در آن هر گره اطلاعات را از گره های همسایه خود جمع می کند يك تبديل به
اطلاعات جمع شده اعمال می کند و ویژگی خود را به روز می کند. اين فرآيند در جندين لايه تکرار می شود تا اطلاعات همسایگیهای بزرگتر را به
دست آورد:
ور
صفحه 235:
VA ادامه....
اجزای کلیدی یک 660 عبارتند از
١ ساختار كرافه ساختار كراف با كره ها و يال ها تعريف مى شود كه به ترتيب موجوديت ها و روابط أنها را نشان مى دهند. مى توان لن را به عنوان يك
ماتريس مجاورت يا يك ليست لبه نشان داد.
ویژگی های گره: هر گره در گراف با یک بردار ویژگی مرتبط است که نشان دهنده ویژگی ها یا خصایص لن است. اين ويزكى ها به عنوان ورودئ GON
1
cle ay کانولوشنال: ا[3)2) ها معمولاً از چندین لایه تشکیل شده لند که در ن هر لایه عملیات ارسال پیام و تجمیع را انجام مى دهد. لين لایه ها ویژگی
گره ها را بر اساس اطلاعات گره های مجاور خود به روز می کنند.
۴ تابع تجمیع:تابع تجمیع نحوه جمع آوری اطلاعات از گره های همسایه را مشخص می کند. توابع متداول تجمیع عبارتند از جمع. میانگین یا حداکثر.
۵تایع فعال سازی: یک تابع فعال سازی پس از مرحله تجميع براى معرفى غيرخطى و درك روابط بيجيده بين كره ها اعمال مى شود.
با اعمال مکرر عملیات ارسال پیام و تجمیع. co Le GON توانند وابستگی های مرتبه بالاتر را دریافت کنند و ویزگی گره های آموزنده ای را که ساختار و
اتصال گراف را در نظر مى كيرة
ها نتايج لميدواركتهملىرا در 5 ترس ید و لبق عور لم لقتنا امناتة ۱
وییه بواییردازشدادد هاییمفید هستند که میتولنند بر طبيعيبسه Rone ees rears
صفحه 236:
٩ برخی از کاربردهای شبکه های کانولوشن گراف را نام ببرید.
شبکههای کانولوشن گراف (3)/۷)) کاربردهایی در حوزههای مختلف پیدا کردهاند که در آن دادهها به صورت گراف هاء ساختار یافتهاند. برخی از
کاربردهای محیوب ل3)2) ها عبارنتد از
طبقه بندی گره ها در یک گراف بر اساس ویژگی های آنها و ساختار گراف استفاده کرد به عنوان
ls GON Ae oS cay ad.) را مى توان برا
مثال, در تجزیه و تحلیل شبکه های اجتماعی. oe lo GCN توانند کاربران را بر اساس ارتباطات اجتماعی و اطلاعات پروفایل آنها طبقه بندی کنند.
۲ پیشبینی پیوند: لا[32)ها میتوانند پیوندهای گمشده یا آینده بین گرهها را در یک گراف پیشبینی کنند. این کار در سیستم های توصیه مفید
اميت جاى كه 6600 ها مى توانند ارتباطات بين کاربران و موارد را بای امجاه توصیه های شخصی پیش بینی کنند.
۳ طبقه بندی گراف : لآ/)3) ها می توانند کل گراف ها را بر اساس ویژگی های ساختاری و ویژگی های گره طبقه بندی کنند. لین عمل در کارهلیی
مانند طبقهبندی مولکولها در شیمی یا طبقهیندی اسناد در پردازش زبان طبیعی. که در آن گراف ساختار شیمیلیی یا وابستگی سند را نشان میدهد.
كاربرد دارد.
؟.توليد كراف: 001 ها مى توانند ساختارهاى كراف جديدى توليد كنند كه مشلبه كراف ورودى هستند. لين عمل در كارهليى مانند توليد مولكول يا
افزايش داده های گراف مفید است.
صفحه 237:
٩ ادامه...؟
۵. تشخیص جامعه: لاآ/3) ها می توانند جوامع یا خوشه هایی از گره ها را در یک گراف بر اساس الگوهای اتصال آنها شناسایی کنند. این کار
و تحلیل شبکه های اجتماعی و درک سازماندهی شبکه های پیچیده ارزشمند است.
۶ تکمیل گراف دانش: لاآ/)3) ها می توانند رولبط گمشده یا ناقص را در گراف های دلنش استنباط کنند. با استفاده از ساختار و ویژگی های موجودیت
های بوعود 6 هامی توت روط جدید ی موجودت هارا پیش بتی Se
۷ سیستم های توصیه: از ا32) ها می توان برای بهبود سیستم های توصیه با درک روابط پیچیده بین کاربران, آیتم ها و تعاملات آنها در یک نمایش
مبتنی بر گراف استفاده کرد.
اینها تنها چند نمونه هستند و ل32) ها را می توان در حوزه ها و کارهای مختلف دیگری که در آن داده ها به طور طبیعی به عنوان گراف نمایش داده
می شوند. اعمال کرد. ثابت شده است که /302) ها در درک و به کارگیری اطلاعات رابطه ای موجود در گراف ها موثر هستند که منجر به بهبود
عملکرد در وظایف یادگیری مبتنی بر گراف می شود
صفحه 238:
۰ مفهوم گراف های دانش در بادگیری عمیق چیست؟
گراف های دانش, نمایشهای ساختاری دانش هستند که رولبط و ارتباطات بین موجودیتها را نشان میدهتد. لین گراف ها راهی را برای سازماندهی و
ذخیره اطلاعات در قالبی مبتنی بر گراف ارلئه می دهند. جلیی که گره ها نشان دهنده موجودیت ها و یال ها نشان دهنده رولبط یا ویژگی های بین آَن
موجودیت ها هستند. گراف های دانش برای مدلسازی دانش دنیای واقعی طراحی شدهاند و ماشینها را قادر میسازند تا استدلال کنند و اطلاعات
جدید را استنتاج کنند.
در زمينه يادكيرى عميق. كراف هاى دانش به عنوان یک منبع ارزشمند برای وطلیف مختلف. از جمله درک زبان طبیعی, پاسخ به سوال. سیستم های
توصیه و جستجوی معنابی, عمل می کنند. این گراف ها بک نمایش ساختاريافته و به هم پیوسته از دانش را ارائه میکنند و به مدلهای یادگیری
عميق اجاره مى دهند نا ار روايط بين موجوديسها براى افزايش عملکرد خود ال تقا, کند.
كراف هاى دلنش معمولاً .با تركيب داددها از منلبع مختلف. مانند بايكادهاى داده ساختاريافته. متن بدون ساختار و هستى شناسى ساخته مىشوند. آنها
می توانئد به صورت دستى توسط متخصصان دامنه ايجاد شوند يا به طور خودكار با استفاده از تكنيك هايى مانند استخراج اطلاعات: بيوند نهادها و
تجزيه معنايى توليد شوند. كراف دانش به دست آمده نشان دهنده يك شبكه غنى از موجوديت ها و روابط به هم بيوسته است.
مدلهاى يادكيرى عميق میتوانند از گراف های دانش به روشهای مختلفی استفاده کنند:
۱.جاسازیهای موجودیت: گراف های دانش را میتوان برای ایجاد جاسازیهای موجودیت. که نمایشهای برداری با ابعاد پایین موجودیتها هستند.
استفاده کرد. لین جاسازی ها منظور معنایی و روابط موجودات در گراف دانش را به تصویر میکشند. جاسازی های موجودیت را میتوان با استفاده از
تکنیکهایی مانند شبکههای کانولوشن گراف (30۱۷)) یا الگوریتمهای جاسازی ماند 01511/011 1۳۵۳5۶۰ یا 20۲۵1۴ یاد گر
صفحه 239:
۰ ادامه..؟
۲. پیشبینی رابطه: گراف های دائش به مدلهای یادگیری عمیق اجازه میدهند تا رولبط گمشده یا مشاهده نشده بین موجودیتها را پیشبیتی کنند.
با تجزیه و تحليل رولبط موجود در كراف دلنش. مدل ها مى توانند رولبط جديد را استنباط و پیش بینی کنند. لین عمل در کارهلییمانندتکمیل گراف
حانش يا بيشبينى بيولد ارزشمنة أستد
۳ استدلال معنایی: مدلهای یادگیری عميق مىتوانند از ماهيت ساختار يافته كراف هاى دلنش براى اجراى استدلال و استنتاج اطلاعات جديد استفاده
كنند با بيمليش كراف و تجزيه و تحلیل رولبط بین موجودیت هاء مدل ها می توانند استتتاج های عنطقی داشته باشند ویر اسلس دلتش موجود به
سوالات پیچیده پاسخ دهند.
fe aby oe رای وان مر ا فنه برد با ue Oe ares cu ey
1 كاربران: آيتمها و ويذكىهاى آنهاء مدلها مى توانند بر اساس ترجيحات كاربر و ارتباطات بين
توصيههاى شخصى سازى ارائه كنند.
۵جستجوی معنلیی: كراف هاى دانش جستجوى معتليى را فعال مىكنند. جليى كه يرس و جوهاى جستجو را مىتوان بر اساس رولبط بین موجودب
درك و بردازش كرد. با استفاده از ساختار كراف. مدلها مىتوانئد نتايج جستجوى دقيق ترى ارائه دهند.
به طور كلى. گراف های دانش نمایشی ساختاريافته از دانش را ارائه میکنند که به مدلهاى يادكيرى عميق اجازه مىدهد نا استدلال. استنتاج و
بيشيينىهاى آكاهانهترى انجام دهند. آنها درك و استفاده از اطلاعات را در برنامه های مختلف با به دست آوردن رولبط غنی بين موجوديت ها و امكان
تصميم كيرى آكاهانه تر و هوشمندانه تر از اطلاعات را افزايش مى دهند.
صفحه 240: