کامپیوتر و IT و اینترنتعلوم مهندسی

100 پرسش و پاسخ برتر در یادگیری عمیق

۱۰۰ پرسش و پاسخ برتر که در اکثر مصاحبه ها پرسیده می شود

abbas_torshizi

صفحه 1:
برسش 100 ياسخبرتردر Top 100 Questions and Answers in,Deep

صفحه 2:
1 یادگیری عمیق چیست؟ یادگیری عميق زیرشاخه‌ای از یادگیری ماشینی است که بر آموزش شبکه‌های عصبی مصنوعی با لای‌های متعدد برای یادگیری و پیش‌بینی حجم عظیمی از داده‌ها تمرکز دارد. از ساختار و عملکرد مفز انسان الهام گرفته شده است. جایی که هر لایه از نورون‌ها ویژگی‌های پیچیده‌تر را از داده‌های ورودى بردازش ‎Se‏ در یادگیری عمیق , شبکه‌های عصبی با لایه‌های مخفی متعدد. که به عنوان شبکه‌های عصبی عمیق شناخته می‌شوند برای یادگیری خود کار نمایش سلسله مراتبی داده‌ها استفاده می‌شوند. این شبکه‌ها با استفاده از مجموعه داده‌های برچسب گذاری‌شده بزرگ برای تشخیص الگوهاء طبقه‌بندی اشیاء پیش‌بینی و انجام سایر وظایف پیچیده. آموزش داده می‌شون. الگوريتم‌های یادگیری عمیق فرآیندی به نام پس انتشار را به کر می‌گیرند. که در آن خطاهای پیش‌بینی‌ها به عقب از ریق شبکه منتشر می‌شوند تا وزن‌ها و بیاس‌های نورون‌ها را تنظیم کندد و به طور مکرر عملکرد مدل را بهبود یادگیری عمیق در حوزه های مختلف از جمله بینایی کامپیوتر. پردازش زبان طبیعی, تشخیص گفتار. سیستم های توصیه و بسیاری موارد ديكر به موفقیت چشمگیری دست یافته است. لین فناوری در کارهایی مانند طبقه‌بندی تصویر تشخیص اشیاء ترجمه زبان و سنتز گفتار از تکنیک‌های سنتی یادگیری ماشین بهتر عمل کرده و بهپیشرفت‌هایی در وسایل نلیه خودران, دستیران مجازی, تشخیص‌های پزشکی و موارد دیگر کمک کرده است.

صفحه 3:
۲ یادگیری عمیق چه تفاوتی با یادگیری ماشین سنتی دارد؟ یادگیری عمیق از چندین جنبه کلیدی با یادگیری ماشین سنتی متفاوت است: ۱. تملیش داده ها: در یادگیری ماشین ستتی. استخراج و انتخاب ویژگی ها مراحل بسیار مهمی هستند که در آن کارشناسان دامنه به صورت دستی ویژگی های مرتبط را از داده های خام مهندسی می کنند. از سوی دیگر, یادگیری عمیق, نمایش‌ها را مستقيما از داددها ياد م ىكيرد و نیز به مهندسی ویژگی صریح را از ین می‌برد. شبکه های عصبی عمیق به طور خودکار نمایش های سلسله مراتبی داده ها را در سطوح مختلف انتزاعی یاد می گيرند. ۲ یدگیری ویژگی: الگوریتم‌های یادگیری ماشین سنتی اقلب بر ویژگی‌های دست ساز برای آموزش مدل‌ها منکی هستند.الگوریتم‌های یادگیری عمیق ویژگی‌ها را به‌طور خودکار از داده‌های خام یاد می‌گیرند. وبه مدل اجازه می‌دهند الگوها و نمایش‌های پیچیده‌ای را کشف کند که استخراج دستی آن‌ها ممکن است چالس برانگر باشد. ۳ پیچیدگی معماری: مدل‌های یادگیری عمیق با عمقشان مشخص می‌شوند که به وجود لایه‌های متعدد نورون‌های به هم پیوسته اشاره دارد. این لایه‌ها به مدل اجازه می‌دهند تا نمایش‌های بيجيدهترى از دادهها را بیاموزد. الگوریتم‌های یادگیری ماشین سنتی معمولاً معماری ساده‌تری دارند ماتند مدل‌های خطی یا درخت‌های تصمیم. ۴عملکرد بر روی داده های مقیاس بزرگ: یادگیری عمیق در مدیریت داده های در مقیاس بزرگ. بهتر است.با افزایش اندازه مجموعه داده. شبکه های عصبی عمیق ظرفیت یادگیری الگوهای پیچیده و تعميم خوبی را ارن. الگوریتم‌های یادگیری ماشین سنتی ممکن است در مدیریت مجموعه دادههای بزرگ مشکل داشته باشند و ممکن است روابط پیچیده را به اندازه مدل‌های یادگیری عمیق درک نکنند.

صفحه 4:
۲ ادامه ..؟ ۵ محاسبات و دارند. فرآیند آموزش معمولاً امل وزش: مدل های یادگیری عمیق اغلب به منایع محاسباتی قلبل توجهی به وه برای آموزش بهینه‌سازی تکراری با استفاده از نزول گرادیان و پس انتشار است که می‌توند از نظر محاسباتی فشرده باشد.الگوریتم‌های یادگیری ماشین سنتی اغلب به منابع محاسباتى كمترى نياز دارند و مى توانند يه طور موثر در مجموعه داده‌های کوچکتر آموزش داده شوند ۶ تفسیرپذیری: مدل های یادگیری عمیق, به ویئّه شبكه هاى عصبى عميق. به دليل معمارى بيجيده و يارامترهاى متعدد. اغلب «جعبه سياه» در نظر گرفته می شوند. تفسیر استدلال پشت پیش بیتی ها یا تصمیمات آنها می تواند چالش برانگیز باشد. الكوريتيوهاى يادكيرى ماشين سنتئء مانند قابل تفسير درخت‌های تصمیم یا مدل‌های خطی, می‌توانند رى ارائه دهند و به کاربران اجازه دهند اهمیت ویژگی‌های مختلف را درك كنند. به طور کلی, یادگیری عميق در کارهایی که مقادیر زیادی داده در دسترس است و الکوهای پیچیده نیاز به یادگیری خودکار درنده موفقیت قابل توجهی تشان داده است. تکتیک‌های بادگیری ماشین ستتی هنوز در ستاریوهایی با داده‌های محدود با زمانی که قلبلیت تفسیر بسیار حیاتی است. ارزشمند. هستند.

صفحه 5:
۳. اجزای کلیدی یک سیستم یادگیری عمیق چیست؟ یک سیستم یادگیری عمیق معمولً از چندین جزء کلیدی تشکیل شده است که برای انجام وظایف و آموزش مدل‌ها با هم کار می‌کند. لین اجزاعبرتد از ‎.١‏ داده ها: داده های با کیفیت بالا و دارای برچسب مناسب برای آموزش مدل های یادگیری عمیق ضروری است. با توجه به مسئله داده شده . داده ها می توانند در قالب های مختلفی مانند تصاویره متن: صدا یا داده های ساختاری باشند. ۲ شبکه های عصبی: یادگیری عمیق بر شبکه های عصبی متکی است که از لایه های به هم پیوسته نورون های مصنوعی تشکیل شده اند لین شبکه ها دارای یک لایه ورودی. یک یا چند ‎AY‏ پنهان و یک لایه خروجی هستند. لایه‌های پتهان به شبکه اجازه می‌دهند تا ویژگی ها و الگوهای پیچیده را از دادهها ياد بكيرند. ۳. معماری: معماری یک مدل یادگیری عمیق به آرلیش خاص و اتصال لایه های شبکه عصبی اشاره دارد. معماری‌های مختلف. مانند شبکه‌های عصبی کانولوشن ‎CNN)‏ برای ددههای تصویری یا شبکه‌های عصبی بازگشتی (1[ا!3) بای داده‌های متوللی,برای رسیدگی به وظلیف خاص و استفاده از ساختار ذاتی داده‌ها طراحی شده‌اند. ۴ تولبع فعال سازی: تولبع فعال سازی ,غیرخطی ها را در شبکه های عصبی معرفی می کنند و آنها را قادر می سازند تا رولبط پیچیده را مدل کنند و پیش بینی های غیر خطی انجام دهند.توبع فعال سازی رایچ عبارتند از 136 (واحد خطی اصلاح شده), سیگموید و 8013

صفحه 6:
۳ ادامه ...؟ 8 توابع زيان: تولبع زيان تفاوت بين خروجى بيش بينى شده مدل و.مقامير واقغى هدف را ساب مى كتند. لين توليع جه عنوان معيارى براى عملكرد مدل در طول آموزش عمل مى كنند و فرآيند بهينه سازى را هدايت مى كنند. تمونه هايى از توابع زيان عبارتند از ميانكين ‎aj AMIS) Us heya‏ انتروى متقايل: و زيان سافتيكس. ع. الكوريتمهاى بهينهسازى: الكوريتمهاى بهينهدسازى. مانند نزول گرادیان تصادفی (90310) و انواع آسن (مانند ۷50۲0۵ ‎ly Adam.‏ بهروزرسانی وزن‌ها و بیاس‌های شبکه عصبی در طول آموزش استفاده می‌شوند. هدف لين الكوريتم هابه حدافل رساندن تبع زیان و تنظیم پارامترهای مدل برای بهبود عملکرد آن است. ۷ پس انتشارن پس انتتار یک الگوریتم اساسی است که برای محلسبه گرادیان تلیع زیان با توجه به وزن ها و بایلس ها در شبکه عصبی استفاده می شود. سپس از لین گرادیان ها در مرحله بهینه سازی برای به روز رسانی پارمترها استفاده می شود و شبکه را فادر می سازد تا به صورت تکراری از داده ها ياد بكيرد. ۸ تکنیک‌های متظم‌سازی: تکنیک‌های منظم‌سازی» مانند منظم‌سازی 1و 2اء حذف تصادفی(]لا01۳000) و نرمال سازی دسته‌ای, برای جلوگیری از بیش برازش و بهبودقبلیت تعمیم مدل‌های یادگیری عمیق استفاده مىشوند. اين تكنيكها به كنترل بيجيدكى مدل و كاهش تأثير ویژگی‌های تويزدار يا غير مرتبط کمک می‌کنند.

صفحه 7:
۳ ادامه ...؟ 4. معیارهای ارزیبی: معیارهای ارزیلبی معیارهای کمی را براى ارزيلبى عملكرد مدل هاى يادكيرى عميق ارلئه مى دهند. انتخاب معیارها به مستله مورد نظر بستكى دارد. مانند دقت. درستى. نرخ يادآورى. ©1-5601] براى طبقه بندى. يا ميانكين مربعات خطا ‎oly (MSE)‏ وظايف ركرسيون. زيرساخت سخت افزار و نرم افزار: يادكيرى عميق اغلب به منابع محاسباتى قلبل توجهى براى آموزش مدل هاى بزرك بر روى مجموعه داده های كسترده نياز دارد. معمولاً از سخت افزارهایی با کارایی بالا مانتد (3۳۸) (واحد پردازش گرافیکی) یا لأ18 (واحد بردازش تنسور) براى تسريع آموزش استفاده می شود. علاوه بر اين. کتابخانه‌ها و چارچوب‌های نرم‌افزاری تخصصی مانند ۳۷/۲۵۲6 16۳50۳۴10۷۷۰ یا 6۲25 ابزارها و انتزاع هايى را برای ساخت و آموزش اراکه مي‌دهند.

صفحه 8:
۴ شبکه عصبی مصنوعی چیست؟ شبکه عصبی مصنوعی ‎SL (ANN)‏ مدل محاسیاتی است که از ساختار و عملکرد شبکه‌های عصبی پیولوژیکی ماندد مغر انسان لهام گرفته شده است. لین شيعه پایه و اساس یادگیری عمیق است و به عنوان بلوک اساسی برای وظایف مختلف یادگیری ماشین عمل مى کند. یک تبکه عصبی مصنومی از ره های به هم پیوسته ای به نام نورون هاى مصنوعى يا به سادگی قورون هاه تشكيل شده است. اين تورونها به لايتهايي سازمان‌دهی می‌شوند که معمولاً ايك لايه ورودى. يك يا جند لايه بنهان و یک لایه خروجی تشکیل شد‌اند. هر نورون سیگنال های ورودی را دریافت می کند. یک متاسیات را انجام می دهد ویک کل خروسی تولیه می کند که به تباير تورون على شيتكه ارال مى خيد اتصالات بين نورون ها در شبكه با وزن نشان داده می شود ین وزن ها قدرت يا اهمیت سیگنال های ورودی را تعیین می کنند و در طول فرآیندیدگیری برای يهبود #ملكره شبك #نظيم می شون علايه بر إين: هر نورين متمولا ای یک ‎cies ps ater lid Sd SN ulead‏ را راهم سی کند محاسبات در هر نورون مصنوعی شامل گرفتن مجموع وزنی از ورودی هاء اعمال تلبع فعال سازی به مجموع و تولید یک خروجی است. تلبع فعال سازی, غیرخطی ها را معرفی می کند و به شبکه اجازه می دهد تا الگوها و روابط پیچیده در داده ها را بیموزد. در طول آموزش, شبکه های عصبی مصنوعی از فرآیندی به نام پس انتشاربرای تنظیم وزن ها و یاس ها بر اساس خطا یا اختلاف بین خروجی های پیش بینی شده و اهداف واقعی شبکه به طور مکرر از داده های آموزشی یاد می گیرد. وزن ها و بایاس ها رابه روز می کند تا خطا را به حداقل برساند و تونلیی خود را برای بيش بينى ذاقيق بهبوة بخشد شبکه‌های عصبی مصنوعى ‎sla oll‏ توجهى در كارهاى مختلف از جمله تشخيص تصوير و كفتار. بردازش زبان طبيعى. تشخيص الكو و تصميمكيرى از خود ای فد لين يه ها جر سد يريت سيب ربا دنه ها عاق تكد و من بولحد الكوها و ورگ هی رنه رها نز وروی عل بطم که نهر به ابزارى قدرتمند در يادكيرى ماشینی و یادگیری عمیق تبدیل می کند

صفحه 9:
۵ مفهوم پس انتشار را توضیح دهید؟ پس انتشار یک الگوریتم اساسی است که در آموزش شبکه های عصبی مصتوعی استفاده سی شود لین الگوریتم شبکه را قلدر می‌سازد تا از داده‌های آموزشی برچسب‌گناری‌شده با تنظیم وزن‌ها و بیاس‌های نورون‌ها به منظور به حداقل رساندن تفاوت بین خروجی‌های پیش‌بینی‌شده و مقادیر واقعی داده‌هاء یاد بگیرد. لگوریتم پس انتشار در یک فرآیند دو مرحله ای کار می کند: كذر به جلو و كذر به عقب لس گذربه جلو : در كذر به جلو. داده هاى ورودی به شبکه عصبی وارد می شود و فعال سازی هر نورون لایه یه لایه محاسبه می شود. با شروع از لایه ورودی, ورودی ها در وزن های مربوطه ضرب می شوند. جمع می شوند و از یک تابع فعال سازی عبور می کنند تا خروجی هر نورون تولید شود. این فرآیندبرای هر لایه تا رسیدن به لایه خروجی ثکرار می شود و پیش بینی های نهایی شبکه به دست مى آيد.

صفحه 10:
۵. ادامه .. تا کثربه عقب. در گذوبه علب. خطلی بین خروجی های پیش بینی شکه و مقادیر واقعی دادم های آنوزشی مجاسیه مي شود سپس لین خطاید عقب در شبکه منتشر می شود تا گرادیان های تابع زیان با توجه به وزن ها و بایاس ها محاسبه شود. الگوریتم پس انتشار لين كراديان ها راجا استفاده از قانون زتجیره ای حساب محاسبه می کند. به طور مکرر شیب های تلبع زیان را لایهبه لایه محاسبه مى کند. از لایه خروجی شروع مى شود و به سمت عقب حرکت می کند. سپس از گردیان ها برای به روز رسانی وزن ها و ایاس های نورون ها استفاده می شود و به تدریج مقادیر آنها را برای به حداقل رساندن تابع زیان تنظیم می کنند. در طول گذر به عقب. گرادیان ها در مشتق تبع فعال سازی ضرب می شوند تا حساسیت خروجی نورون به تغیرات در ورودی آن محاسبه شود. لین فرآیند تا زملنی ادامه می‌یلبد که گرادیان‌ها برای همه لایه‌ها محاسبه شود و به شبکه اجازه می‌دهد تا وزن‌ها و بایاس‌های بهینه را یاد بگیرد که تفاوت بین خروجی‌های پیش‌بینی‌شده و مقادیر واقعی را به حداقل می‌رساند. .با اتجام مکررگذر به جلو و عقب بر روی دسته‌ای از اده‌های آموزشی. الگوریتم پس انتشارپاامترهای شبکه عصبی را دقیق تنظیم می‌کند و تونیی آن را برای پیش‌بینی دقیق بهبود می‌بخشد. لین فرآیند بهینه‌سازی تکراری تا زملنی ادامه می‌یلبد که شبکه به سطح رضایت‌بخشی از عملکرد همگرا شود یا یک معیار توقف از پیش تعریف‌شده برآورده شود. به طور کلی؛ پس انتشار یک جزء حیاتی از آموزش شبکه های عصبی است که آنها را قادر می سازد از داده ها یاد بگیرند و پارامترهای خود را برای بهبود قابلیت های پیش بینی خود تنظیم کنند.

صفحه 11:
۶ نزول گرادیان چیست؟ نزول كراديان يك الكوريتم بهينهسازى است كه معمولاً در یادگیری ماشین و یادگیری عميق برایبهروزرسانی پرمترهای یک مدل به‌طور مکرراستفاده على انود يه ويزه جر زبينه افوزش شيعه هاي عصرى مفيد لدت هدف اصلى نزول كراديان» به حداقل رساندن يك تلبع زيان معين است كه تفاوت بين خروجى هاى بيش بينى شده يك مدل و مقادير واقعى داده هاى آموزشى را اندازه كيرى مى كند. با به حداقل رساندن تبع زین, مدل به دنبال بهبود عملکرد خود و بيش بينى هاى دقيق تر است. اين الكوريتم نام خود را از مفهوم گرادیان گرفته است که نشان دهنده جهت و بزرگی تندترین صعود یا نزول یک تابع است. در مورد نزول گرادیان ۰ گرادیان در جهت تندترین نزول تابع زیان در اینجا یک نمای کلی از الگوریتم نزول گرادیان آورده شده است: ۱. مقداردهی اوله:لگوریتم با مقداردهی اولیه ارامترهای (وزن و بایاس) مدل با مقادیر تصادفی یا مقادیر از پیش تعریف شده شروع مى شود. ۲ گذر به جلو : در گذر یه جلوء داده های آموزشی از طریق مدل منتشر می شود و خروجی های پیش بینی شده محاسبه می شود. سپس تلبع زیان با استفاده از خروجی های پیش بینی شده و مقادیر واقعی داده های آموزشی محاسبه می شود.

صفحه 12:
۶ ادامه..؟ كذربه عقب :كذربه عقب كه به عنوان 886160088931010 نيز شناخته مى شود. شامل محاسبه كراديان تلبع زيان با توجه به بارامترهاى مدل است. اين كراديان ها جهت و بزركى تغييرات مورد نياز براى به حداقل رساندن تابع زيان را نشان مى دهد. ؟.به روز رسانى بارامترهاء از كراديان ها براى به روز رسانى بارامترهاى مدل استفاده مى شود. بارامترها با در نظر كرقتن نرخ يادكيرى. در جهت مخالف كراديان ها تنظیم می شوند. که اندازه گام به روز رسانی ها را تعیین می کند. نرخ یادگیری کمتره به‌روزرسانی‌های محتاطانه‌تر را تضمین می‌کند. در حللی که نرخ یادگیری بیشتر ممکن است منجر به فراجهش راه‌حل بهینه شود. ۵ مراحل ۲ ۴ را تکرار کنید: مراحل ۲ تا ۴ برای تعداد مشخصی از تکرارهایا ار همگرلیی برآورده شود تكرار مى شود تكرارها برای به روز رسانى بارامترهاء به تدريج كاهش زيان و بهيود عملكرد مدل ادامه مى يابد. ‎les‏ که یک ‏انواع مختلفی از گرادیان نزولی وجود دارد. مانند نزول گرادیان تصادقی (963]0). نزول گرادیان دسته ای کوچک. و نزول گرادیان دسته ایء که در تعداد نمونه ‏های مورد استفاده برای محاسبه گرادیان در هر تکرار متفاوت است. هدف این گونه ها ایجاد تعادل بین بازده محاسباتی و سرعت همگرایی است. ‏نزول كراديان يك جزء حيلتى در آموزش مدلهاى يادكيرى ماشين است. زيرا به مدلها اجازه مىدهد از داددها ياد يكيرند و مجموعه بهينه بارامترهليى را بيابند ‏كه تابع زيان را به حداقل مىرساند و منجر به يهيود عملكرد و بيش بينىهاى بهتر م شود.

صفحه 13:
۷. تفاوت بین نزول گرادیان تصادفی و نزول گرادیان دسته ای چیست؟ نزول گرادیان تصادفی (9310) و نزول گرادیان دسته ای دو نوع از الگوریتم نزول گرادیان هستند که در تعداد نمونه های آموزشی مورد استفاده برای محاسبه كراديان در هر تكرار متفاوت هستند. تفاوت آنها به اين صورت ‎١‏ نزول كراديان دسته لى: - نزول كراديان دسته لى. كراديان ها را یا استفاده از کل مجموعه داده آموزشی در هر تکرار محاسبه می کند. - در هر تاره مدل تابع زيان را ارزيابى مى كند و كراديان هارا براى تمام نمونه هاى آموزشى محاسبه مى كند. ‏- كراديان ها در كل مجموعه داده ميانكين كرفته مى شوند تا جهت و اندازه به روز رسانى بارامترها مشخص شود. ‎ ‏- نزول كراديان دسته اى از نظر محاسباتى كيان است زيرا نياز به ارزيابى كل مجموعه داده براى هر به روز رسائی ا این حال, تخمین دقیق تری از كراديان واقعى ارائه مى دهد و به طور كلى به حداقل مقدار عمومى تابع زيان همكرا مى شود به ويؤه براى مسائل محدب. ‏- هنگام برخورد با مجموعه داده های بزرگ ممکن است به آرامی همگرا شود زیرا کل مجموعه داده باید در هر تکرار پردازش شود.

صفحه 14:
۷. ادامه...؟ ۲ نزول گرادیان تصادفی: يك تمونه أموزشى در هر بار و ذر هر تكرار به روز مى كند. - نزول كراذيان تصاذفى بارامترهاى مدل را ب استفاده مر هر نکر مدل يك نمونه أمورشي عسامطى رالتتغب م حتد. نايع زيان رامستاسيد عى اكتد و طوي ها رابر اناس إن تبونة واجد محاسيه مي کدد - سپس از كراديان ها برلى به روز رسائى بارامترها بلافاصله يس از محاسبه استفاده مى شود و به روز رسانى ها را در مقايسه با كراديان دسته اى بيشتر و سريع ثر مى كند. - از آنجايى كه فقط از يك نمونه استفاده می کند. نزول گرادیان تصادفی هزینه محاسبانی بسیار کمتری در هر تکراردارد.به خصوص برای مجموعه داده هاى بزرك. يا لين حال به روز رساتی ها می تواننه نوبز داشته باشند و سمکن لست به طور دی جهت واقمی گرلیان رانشان ندهند. لین كار مى توند متجربه توسانات میشتر در طول فرآیند بهینه سازی شود. - نزول گرادیان تصادفی به دلیل واریانس بالای معرفی شده توسط به روز رسانی های نوبزدر.به احتمال زیاد به یک حداقل محلی به جای حداقل عمومی همگرا می شود. - عليرغم مخدونيت همگرلیی محلی: نزول گرادیان تصادفی می تولند هنگام برخورد با مجموعه داده های بزرگ یا مسائل بهینه سازی غیر محدب سودمند باشد و گاهی اوقات می تواند از حداقل های محلی ضعیف قرار کند. همجنين. تعادلى بين اين ذو حللت افراطی وجود دارد که نزول گرادیان دسته ای کوچک نامیده می شود. در نزول گردیان دسته ای کوچک . یک زیرمجموعه کوچک (مینی دستهای) از مونههای آموزشی به طور تصادفى انتخاب شده و براى محاسبه كراديان ها استفاده می شود. ان رویکر.تمدلیبینبازدهمحاسبانی و سرعت همگرایی اد می‌کند و ممبولا در عمل استفاه می‌شود

صفحه 15:
۸ نقش توابع فعال سازی در یادگیری عمیق چیست؟ تولبع فعال سازى نقش مهمى در مدل هاى یادگیری عمیق دارند. لین تولبع رابعطه های غیرخطی را وارد شبکه عصبی می‌کنند وبه آن اجازهمی‌دهند تا رولبط پیچیده بین داده‌های ورودی و پیش‌بینی‌های خروجی را بیاموزد و نمایش دهد. در اینجا نقش های کلیدی تولبع فعال سازی در یادگیری عمیق آورده شده ور ‎.١‏ غير خطى بودن: توابع فعال سازى تبديل های غیرخطی را به خروجی نورون ها انجام می دهند. بدون توابع فعال‌سازی غیرخطی. کل شبکه عصبی به يك مدل خطی کاهش می‌یاید که قادر به یادگیری و فهمیدن الگوهای پیچیده در داده‌ها نیست. تولبع فعال‌سازی غیرخطی شبکه را قادر می‌سازد تا روابط پیچیده و غیرخطی موجود در داده‌های دنیایواقعی را مدل‌سازی کند. ‏۲ یادگیری ویژگی: مدل های یادگیری عمیق قادر به یادگیری خودکار نمایش سلسله مراتبی داده ها در سطوح چندگانه انتزاعی هستند. توابع فعال اسارى ‎re ce ee a eee‏ غیرخطی را ثبت کنند و شبکه را قادر می‌سازد تا نمایش‌های مرتبط و آموزنده را از داده‌های ورودی استخراج کند. ‏۲ جریان گرادیان و پایداری آموزش «توبع فعال سازی تأثیر مستقیمی بر جریا كراديان ها در طول الگوریتم پس انتشاردارند كه براى به روز رسانی وزن ها و باياس ها استفاده می شود: ‏شبكه عصبى در طول آموزش يك تابع فعال سازى كه به خوبى انتخاب شده است. انتشار ملایم گرادیان ها را تضمین می کند و از مشکل محو یا انفجار ‏كراديان ها جلوكيرى مى كند. تولبع فعال‌سازی که محدوده متعادلی از مقادیر خروجی را حفظ می‌کنند به تثبیت فرآیند آموزش و تسریع همگرایی كمف مى كنيد ‎

صفحه 16:
۸ ادامه...؟ ۴ محدوده خروجی و تفسیرپذیری:تابع فال‌سازی می‌تونند محدوده خروجی نورون‌ها را تبین کنند و آنها را مناسب انجام كارهاى خاصى كنند. به عنوان مثال, تلبع سيكمويد روج رابين ‎oly as engi ١ 5١‏ رای کرهای طقه یی پابتری که هر لن غروجى اعدمالات را تشان مى دهد مد لت ار سوق درك ليع 960601874 ‎Gir A‏ هر لايه خروجی برای مساال طبقه بندی چند کلاسه افمال کرد و توزيع احتمال را درگلاس های مختلف تولید کرد ویم فمال‌ساری همچنین با له خروجی‌لبی که با ‎PSU‏ ‏بين هاى مدل تأثير مى كذارند. Stel yt Sole شكارايى محاسياتى: توابع فعال سازى بايد از نظر محاسباتیکارآمد و به راختی قبل تمایز باشند.اجرای کارآمدتوبعفعال‌سازی می‌تلد الگوریتمهای گذر به جلو و پس انتشر را سرعت بخشد و آموزش و استتتا را کارآمدتر کند توابع فعال سازی رایج در یادگیری عمبق عبارتن از - 5190010 ورودی را به مقدارى بين ‎٠‏ و ‎١‏ نگاشت می کند که بای کارهای طبقه پندی پایری مناسپ است. - 191011 مشبهتبع 51970014 است اما ورودى را به مقدری بین -۱ و ۱ نگاشت می کند. ‎sol) RELU —‏ اصلاح‌شده» مقاخير منفى را صفر مىكند و مقادير مثبت را بدون تفيير نكه مىدارد. قابليتحلى يادكيرى بهتری را رنه میکند و مشکل محو گرادیان را کاهش می‌دهد. -لااع8 1۵2107 مشابه لاع8 است. ما شیب کوچکی را رای مقادیرمنفی معرقی می کند و از ورون های "مرده" جلوگیری می کند ‏- 08117133 در لايه خروجى براى طبقه يندى جند كلاسه استفاده مى شود و توزيع اختمال ير روى كلاس ها را توليد مى كند. ‏انتخاب تلبع فعال سازى به ماهيت کارهویژگی های مورد نظر مدل و ویزگی های داده ها بستكى دارد انتخاب و درك ضحيح توليع فعال سازی برای طراحی مدل های یادگیری عمیق موثر و با ارایی بالا ضروری است.

صفحه 17:
‎٩‏ برخی از توابع فعال سازی رایج در یادگیری عمیق را نام ببرید. ‎.٠‏ تابع فعال سازى سيكمويد: ‎a(x) = 1/ (1 + exp(-x)) Jee - ‏- محدوده خروجی:(0 41 ‏- -مناسب برای؛ مسائل طبقه بندی باینری که در آن خروجی احتمالات را نشان می دهد. ‏تابع فعال سازى 131019 (مماس هايبربوليك» ‎tanh(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x)) ‏فرمول:‎ - ‏- محدوده خروجی: (۱, 0 - - مشابه تابع سيكمويد اما با محدوده خروجى متقارن حول صفر. ۳ تابع فعال سازی واحد خطی اصلاح ‎ARELU) oa‏ ‎ReLU(x) = max(0, x) ‏فرمول:‎ - ‏- محدوده خروجی: [,+00) ‏- - به دلیل سادگی و توتیی آن برای کاهشن مشکل محو گرادیان. به طور گسترده استفاده مى شود مقادير منفى را صفر می کند و مقادیر مثبت را بدون تفیبر نگه می دارد.

صفحه 18:
‎٩‏ ادامه..؟ ‎Leaky ReLU gil. Jui a ‎cub 5, 045) LeakyReLU(x) = max(ax, x) .Jse,3‏ کر ‎ ‏- -محدوده خروجی: (0, :ه) - - شبیه 896 است اما شیب کوچکی را رای مقادیرمنقی معرفی می کند. که از نورون های "مرده" جلوگیری می کند ل تابع فعال سازی پارمتریک ‎ReLU :(PRELU)‏ ‏- فرمول ( ,۳۵3/006 < ()۳8610 :که 0 یک پارامتر قابل یادگیری است ‏- محدوده خروجی:(-, «ه)) ‏- - توسعه یفته لا86 163107 که در آن 0 را می توان در طول آموزش یاد گرفت. ‏۶ تیم فال سازی ‎Softmax‏ ‏- فرمول:ز ‎Gly Softmax(x_i) = exp(x_i) / sum(exp(x_j))‏ 2 عنصر آ لا در بردار ورودی 06 ‏= محدوده خروجی: (۱,۰)برای هر عنصر با مجموع همه عناص ‎VU ply‏ ‏- معمولاً رای خروچی بای مسائل طيقه يعدى جند كلاسه براي توقيد توزيع أحتمال در كلاس على مختلف استفاده مي شود

صفحه 19:
‎٩‏ ادامه..؟ ‏اتايع قمال سازى مر ‏- فرمول: (2><-)م)اء > ()55130لاة6© ‏- محدوده خروجى:(0, 1) ‏- در موارد خاص مانند مکانیزم های توجه شبکه های عصبی استفاده می شود. ‏۸ عملکرد فعال سازی 5/0 5۷۷: ‏- فرمول: ()519۲0010 * ۷ < ()5ز5۷ ‏- محدوده خروجی:(-0, +0) ‏- به عنوان یک تابع فعال سازی خود-دروازه ای معرفی شده است که به طور بالقوه می تواند عملکرد بهتری را در مقایسه با انواع 8611 ارائه دهد. ‏ینها نها چند نمونه از توابع فعال سازی رایج در یادگیری عمیق هستند.انتخاب تبع فعال سازی به مساله خاص, ویژگی های داده ها و ویژگی های مورد نظر مدل بستگی دارد. آزمایش و انتخاب تابع فعال سازی مناسب بر اساس الزامات کار مهم است.

صفحه 20:
۰ مشکل محو گرادیان چیست؟ مشکل محو گرادیانبه مشکلی اشاره درد که در طول آموزش شبکه‌های عصبی عمیق با آن مواجه مىشويم. جابى كه كراديانهاى تلبع زيان با توجه به بارامترها بسيار کمچک می‌شوند زرا در لابه‌های شبکه به عنب متتر می‌شوند. این موضوع می تاند روند یادگیری را مختل کند و بر عملکرد شبکه تأثیر ستفی بکتار. مشکل اساسا بهدلیل انتخاب تولیع فعال‌سازی,مانند مماس سیگموئید یا هذلولی ‎(LAMM)‏ که مقادیر ورودی را در یک محدوده معین, معمولاً بين ‎٠‏ و ۱یا -۱ و ۱ قرار می دهد ایجاد می‌شود هنگامی که گرادبان ها در حین پس انتشار معاسبه می شونده در مشتقات لین تولبعفعال سازی شرب می شرند. که تملیل دارند در تواحی شدید. (نزديك به ‎٠‏ يا ‎)١‏ كوجك باشند. در نتیجه. گراد أن ها مى توانند به صورت تصاعدى كاهش بيدا كنند. زيرا در لايه هاى زيادى به سمت عقب منتشر می شوند. همانطور كه كراديان ها به طور محو شدنى كوجك مى شوند. وزن ها و باياس هاى لابه هاى قبلى ببه روز رسانى حداقلى را در طول آموزش دريافت مى كدئد. لين بدان ممداست كه لايد على اولي شبكه بأ سرمت يسيار كمتري نسيت به لايه على يمدي ياد مى كيرند در تتيج شيكه ‎pei‏ با ری تسایس هی مسر تاش کندو تون اگوها و وبط ‎Ses la pol) le‏ مشکل محو گرادیان می‌تولند منجر به چالش‌های متعددی شود. از جمله همگرلیی آهسته. ظرفیت مدل محدود: و مشکلات در آموزش شبکه‌های عصبی عمیق با لایههای زياد. در شبكدهابى با اتصالات مكرر. مانند شبكههاى عصبى بازگشتی ((3۱1). كه در آن كراديانها بايد در دنبالههاى طولانی منتشر شوند. شیوع بیشتری درد برای پرداختن به مشکل محو كراذيان : تولبع فعالسازى مختلفي ماتند واحد خطى اصلاحشده (لأ-/8) و اتواع آن ايجاد ‎las‏ كه با ارلئه كراذيانهاى غير ضفر براك ورودی‌های مثبت. مشكل را كاهش م دهند علاوه بر لین» تکنیک هایی مانند برش گرادیان:نرمال سازی دسته ای. و اتصالات پرش لبه عنون مثال, اتصالات بقیمانده) بای تثبیت گرادیان ها و کمک به آموزش شبکه های عمیق تر معرفی شده ند با استفاه از تویعفعال‌سازی مناسب و بهکارگیری تکنیک‌های منظم‌سازی, می‌توان مشکل محو گرادیان را کاهش داد و آموزش شبکه‌های عصبی عمیق‌تر را تسهیل کرد و آنها را قادر می‌سازد تا نمایش‌های پیچیده‌تری را بيموزند و به عملکرد بهتر در طيف كستردهاى از وظايف دست يابئد.

صفحه 21:
۱. چگونه می توان مشکل محو گرادیان را کاهش داد؟ مشکل مجو گرادیان را مى توان از طريق تکنیک های مختلفی که به تتبیت و تسهیل آموزش شبکه های عصبی عمیق کمک می کند. کاهش داد در اینجا برخی از رویکردهای رایج استفاده می شود: ۱. توابع فعال‌سازی: به جای استفاده از توابع فعال‌سازی که مقادیر ورودی را اشباع و خرد می‌کنند. مانتد سیگموید یا 520010 استفاده از توابع فعال‌سازی که برای ورودی‌های مثبت از محو گرادیان رنج نمی‌برند. اغلب سودمند است. واحد خطی اصلاح شده (لا6) و انواع آن لبه عنوان مثال. 86۱۱۱ ۱6810766۱۱۱۰ پارامتریک) انتخاب های محبیبی هستند زیرا گرادیان های غیر صفر را برای مقادیر مثبت فراهم می کنند و یادگیری سریع ترو بابدارتر رأ ترويع مى أكتند. ۲ مقداردهی اولیه: مقداردهی اولیه دقیق وزن های شبکه می تولند به كاهش مشكل محو كراديان كمك كند. مقداردهى اوليه وزن هابا استراتزىهاى مناسب. مانند استفاده از تکنیک‌هایی مانند مقداردهی اولیه 263۷16۳ یا مقداردهی اولیه ۰16 می‌تواند از محو یا انفجار گرادیان در طول آموزش جلوگیری کند. هدف این روش‌های مقداردهی اولیه حفظ محدوده معقولی از فعال‌سازی‌ها و گرادیان‌ها در سراسر شبکه است. + برش گرادیان: 21[001۳9) 3۲301610۴) تکنیکی است که برای محدود کردن بزرگی گرادیان ها در طول آموزش استفاده می شود..با تعیین یک آستان. گرادیان ها در صورت تجاوز از اين حد. مجدداً مقياس مى شوند. برش كراديان از مقادیر گرادیان شدید که می‌تونند باعث بی‌ثبانی در طول آموزش شوند. به‌ویژه در شبکه‌های عصبی بازگشتی ‎)۲٩۱۷|۷/(‏ جلوگیری می‌کند.

صفحه 22:
۱. ادامه..؟ ؟: نمال سازی دسته ای:نرمال سازی دسته ای تکنیکی است که فعال سازی هر لاه ربا تنظیم و مقياس بندى آنها با توجه به ميانكين و واريانس دسته. نرمال مى كند. لين ترمال سازى به كاهش مشكل محو كراديان با کاهش لثر شیفت توزیع داخلی و رنه یک فرآیند آموزشی پایدارتر کمک می کند. رمال سازی دسته ای نیزبه عنوان یک تنظیم کننده عمل می کند و می تواند همگرایی را سرعت بخشد. ۵ اتصالات پرش و شبکه های باقیماند؛اتصالات پرش. که به عنوان اتصالات بقیمانده نیز شناخته می شوند. شامل افزودن اتصالات میانبر است که یک یا چند لایه در شبکه را دور می زند. این اتصالات گرادیان ها را قادر می سازند تا مستقیماً از طریق اتصالات پرش جریان پیدا کنند و امکان انتشار آسان گرادیان ها در لایه ها را فراهم مى کنند. شبکه‌های باقی‌مانده(5ت ‎)٩6511‏ از اتصالات پرش برای ایجاد شبکه‌های عمیق و رفع مشکل محو گرادیان استفاده می‌کنند. ۶ حافظه کوتاه مدت طولانی(718 )و واحدهای بازگشتی دروازه در ([3/81): در شبکه های عصبی بازگشتی (۸/89)» مجو گرادیان هابه دلیل نیز به نت گرادیان ها در دنله های طولانی می تواتند مشکل ساز باشند.معماری‌های 15714 و ‎aS GRU‏ شامل سلول‌های حافظه و مکانیمهای دروازه ای می‌شوند.به طور خاص برای کاهش مشکل محو گردیان در ‎1٩۱1۱‏ طراحی شدداتد. لين معمارى هابه طور موثر وابستكى هاى طولاتى مدت را در داده های متوللیدریافت می کنند و جريان كراديان بايدارترى را امكان يذير مى كنند. 1 الكوريتمهاى بهينهسازى مبتدى بر كراديان: استفاده از الكوريتمهاى بهينهسازى كه كمتر مستعد مشكل محو كراديان هستند نيز مىتواند مفيد باشد. روشهلى بهینه‌سازی تطبیقی, ماتند ۸۹63۲01 یا ‎٩۷150700‏ به‌طور پویا تخ‌های یادگیری را برای هر پارامتر بر اساس كراديانهاى كذشته تنظيم مىكنند. اين الكوريتمها می‌توانند با تطبیق نرخ‌های یادگیری با گرادیان‌های خاصی که در طول آموزش با آن مواجه می‌شوند. به حل مشکل محو گرادیانها کمک کنند. جا استفافه ازلين تكنيك هاليه صورت تركيبى ما ‎sce ey Jo ees pe‏ وان مشکل مسو ‎sere eee in eg Ae Gee GIS‏ راب طور موثرترى أموزش ناد با لين حال توجه به لين تكته مهم لست كه استراتزىهاي مختلق ممكن است براى سداريوهاى مختلف بهتر عمل كنبد واشلب براى تعيين رويكرد بهينه نياز به تجربه است.

صفحه 23:
۲. حذف تصادفی در یادگیری عمیق چیست؟ حذف تصادفی یک تکنیک منظم سازی است که معمولاً در یادگیری عمیق استفاده می شود و هدف آن جلوگیری از بیش برازش و بهبود عملکرد تعمیم شبکه های عصبی است. لین تکنیک شامل «حذف کردن» موقت (یعنی صفر کردن) مجموعه تصادفی نورون ها در طول هر تکرار آموزشی است. نورون های حذف شده در طی آن تکرار یه گذر به جلو یا گذر به عقب مشارکت نمی کنند. نحوه عملکرد حذف تصادفی در اینجا آمده است: ۱. در طول آموزش: - در هر تکرارآموزشی به ازای هر نورون در یک لایه. حذف تصادفی به طور تصادفی فعال شدن آن نورون ربا احتمال خاصی (میزان حذف تصادفی ) صفر می کند. نرخ حذف تصادفی معمولاً از ۰.۲ تا ۰۵ متغیر است. - حذف تصادفی به طور مستقل برای هر نورون اعمال می شود. به این معنی که نورون های مختلف می توانند در تکرارهای مختلف حذف شوند. و ‎eee‏ ۱ دیگر باید نورون‌های حذف‌شده را جیران کنند. - گذر به عقب (پس انتشار) فقط نورون های حذف نشده را در نظر می گیرد و گرادیان ها فقط از طریق آن نورون های فعال .منتشر مى شوند.

صفحه 24:
‎VY‏ دامه..؟ ‎Jub at‏ استتتاج. - در مرحله استنباط ی آزمایش: حنف تصادفی خاموش مي شود و همه نورون ها فعال هستند. ‏-با ین حال.برای حفظ فعالسازىهاى مورد انتظار. وزن نورونهابى که در طول آزملیش حذف شده‌اند. در نرخ حذف تصادفى در طول استنتاج ضرب مىشوند. لين كار تضمین مى كند كه ورودى كلى هر نورون مشابه مرحله آموزش باقى مى ماد ‎ ‏ا مقياس بندى وزن ها در طول استنلم. شبکه به لور موتری پیش بیتی های شبکه های کوچک شده چندگاته را ترکیب می کند ودر نتیجه یک مدل قوی قر و تعمیم بافت. ایجاد می کند. ‏مزایای اصلی حذف تصادفی عبارتند از ‏۱ منم سازی: حذف تصادفى به عنوان يك تكنيك منظم سازى با معرفى تويز و كاهش سازكارى هلى بيجيده بين نورون ها عمل مى كند. لين كارجه جلوكيرى از بيش برازش ‎ules ee ee‏ مدل را براى تعميم به ‎Bey ogy meer aan‏ ‏۲ کاهش وابستگی‌های متقابل: حذف تصادفی نورون‌ه از تكيه بيش از حد به يكديكر جلوكيرى مىكند و أنها را مجبور مىكند مستقلتر باشند و ویژگی‌های قوی‌تری را بياموزند. ‎ ‏ناثير جممى: حذف تصادفى را مى توان به عنوان آموزش جندين شبكه "كوجك شده" به صورت موازى در طول هر تكرار مشاهده كرد. در زمان موثر تركيب مى شوند و منجر به مجموعه اى از مدل ها مى شود كه مى توانند يبش بينى هاى قابل اطمينان ثرى انجام دهند. ‏نشان دادم شده است که حنف تصادفی در انواع معمارى شبكه هلى عصبى موثر النت وبه يك تكنيك استشدارد در يلدكيرى عمیق تبدیل شده است. لین تکنیک یک رلهساده و در مین حال قرتمند برای بهبودعملکرد تمیم و استحکام شبکه های عصبی که می دهد

صفحه 25:
۳ مفهوم شبکه های عصبی کانولوشن <1(()) را توضیح دهید. شبکه‌های عصبی کانولوشنال (۷/۷//)) دسته‌ای از شبکه‌های عصبی عمیق هستند که به طور خاص برای پردازش داده‌های شبکه‌مانند ساختار یافته. مانند تصاویر یا دنبال‌ها طراحی شده‌اند.///2) ها انقلابی در زمینه بینلیی کامپیوتر ایجاد کرده لند و به طور گسترده برای کارهایی مانند طبقه بندی 'تصوير. تشخيص اشيا و قطعه بندى تصوير مورد استفاده قرار كرفته اند. مفهوم كليدى يشت 77 الا1ن) استفاده از لایه‌های کانولوشنی است که شبکه را قادر می‌سازد تا به طور خودکار نمایش سلسله مراتبی داده‌های ورودی را بیاموزد. تایبا سود كار 1010 ها آنده است: ‎.١‏ لايه هاى كانولوشتال: ‎ -‏ لاله از یک یا چند لایه کاولوشن تشکیل شده اند. هر لايه كانولوشن مجموعه اى از فيلترهاى قابل يادكيرى (همجنين به عنوان هسته شناخته می شود) روی داده هاى ورودى اعمال مى كند. ‎ ‏ها ماتریس هلیی با اندازه کوچک هستند که روی داده های ورودی می لفزند و عملیات ضرب و جمع درلیه ای انجام می دهند که منجر به یک هی بلح ‏- عملیات كانولوشنال الكوهاى محلى و وابستكىهاى فضابى را با بهردبردارى از وزنهاى مشترك فيلترها ثبت مىكند. ‏- آندازه. گام و لایه فیلترهاء ابعاد فضایی نقشه هاى مشخصه حاصل را تعيين مى كند.

صفحه 26:
۳ ادامه.... ۲ لایه های ادغام: - لایه‌های ادغام اغلب بعد از لایه‌های کانولوشن درچ می‌شوند تا ایعاد فضایی نقشه‌های ویژگی را کاهش دهند و در عین حال مرتبط‌ترین اطلاعات را حفظ کنند. - عملیات ادغام. نقشه های ویژگی را به مناطق غیر همپوشانی تقسیم می کند و آنها را معمولاً با گرفتن حداکتر مقدار (ادغام بیشینه) یا مقدار متوسط ‎ee‏ - ادغام به دستيابى به باياى انتفال استحکام نسبت به تغییرات فضایی کوچک و کاهش پیچیدگی محاسباتی شبکه کمک می کند. ":توابع فعال سازى غير خطى؛ - بعد از هر لايه كانولوشن يا ادغام. يك تلبع فعال سازى غير خطى. مانند ‎RELU‏ (واحد خطی اصلاح شده» معمولً به صورت ضرب درلیه ای به نقشه های ویژگی اعمال می شود. - تلبع فعالسازى. غیرخطی‌ها را به شبکه معرفی می‌کند ون را قدر می‌سازد تا وبط پیچیده را ید بگیرد و ویژگی‌های سططح بل را در داده‌ها درک کند.

صفحه 27:
۳ ادامه.... ۴ لايه هاى تمام متصل: در انتهاى معمارى 0180© معمولاً يك يا جند لايه تمام متضل اضافه مى شود. لین لایه هابه عنوان یک طبقه بندی کننده عمل می کنند و ویژگی های سطح بالایی را که توسط لایه های قبلی آموخته اند را مى كيرند و آنها رابه خروجی مور تظر نگاشت می کنند. مانند احتمالات کلاس در مورد طبقه بندی تصوير. لیه‌های تمام متصل هر نورون را در یک لايه به هر نورون در لايه بعدى متصل مىكنند. مشابه برسبترونهاى جند لایه سنتی (1-8/) ۵آموزش: ‎CNN‏ ها با استفاده از پس انتشار آموزش داده می شوند. جلیی که گرادیان های تبع زیان با توجه بهپرامترهای شبکه محاسیه شده و برای به روز رسائی وزن ها از طريق الكوريتم هاى يهينه سازى مانند نزول كراديان تصادفى (560) استفاده می شود ‏آموزش معمولً روی مجموعه داده‌های برچسبگاری‌شده بزرگ انجام می‌شود و شبکه یاد می‌گیرد که به طور خودکار ویژگی‌های معنی‌دار و متمایز از داده‌های ورودی را از طریق قرار گرفتن مکرر در معرض نمون‌های آموزشی استخراج کند ‏قابليت يادكيرى سلسله مراتبى و محلی 1010© ها آنها را به ویقه بای کارهای مرتبط با تصویر موثر می کند. با استفاده از لاههای کانلوشن, لایه‌های ادغام و توبع فعال‌سازی غیرخعطی, لها می‌تواتند به طور خودكار ويزكىها را در سطوح مختلف انتزاع, از لبدها و بافتهاى ساده گرفته تا نمايشهاى بيجيده اشياء. ياد بكيرند و ثبت كتند لين كار 0004 ها را قادر مى سازد تابه عملکرد پیشرفته ای در وظلیف مختلف بینایی کامپیوتر دست یابند و آنها را در زمینهیادگیری عمیق ضروری ‎

صفحه 28:
۴ مفهوم ادغام در ل۷8) ها چیست؟ ادغام یک عملیات رایچ در شبکه های عصبی کانولوشن ([(21۷)) است که معمولاً بعد از لایه های کانولوشن اعمال می شود. لایه های ادغام ابعاد فضایی (عرض و ارتفاع) نقشه های ویژگی را کاهش می دهند و در عین حال مرتبط ترین اطلاعات را حفظ می کنند. هدف اصلی از ادغام دستیابی به عدم تغییر ترجمه. افزایش کارایی محاسباتی و کمک به تمرکز شبکه بر برجسته ترین ویژگی ها است. در اینجا نحوه عملکرد ادغام آمده است: ادغام بیشینه: - ادغام بيشینه رايج ترین نوع عملیات ادغام است که در ‎CNN‏ ها استفاده می شود. - در ادغام بيشينه. نقشه ویژگی به مناطق غیر همپوشانی (معمولاًمربعی) تقسیم می شود که به آن پنجره های ادغام می گویند - در هر پنجره ادغام. حداکثر مقدار (با توجه به نام " ادغام بیشینه ") استخراج و حفظ می شود و مقادیر دیگر کنار گذاشته می شود. - نقشه ویژگی خروجی حاصل, ابعاد فضایی را کاهش داده است. زیرا تعداد پنجره های ادغام کوچکتر از اندازه ورودی اصلی است. -ادغام بيشینه به درک برجسته ترین ویژگی ها در هر ناحیه کمک می کند و درجلتى از باياى انتفال را فراهم مى كند. زيرا حداكثر مقدار نشان دهتده وجود یک ویژگی بدون توجه به مکان قیق آن است.

صفحه 29:
۴ ادامه ۲ ادغام مانگین - نوع ديكرى از عمليات ادغام. ادغام ميائكين است. - مشابه ادقام بيشينه. نقشه ويزكى به ينجره هاى ادغام تفسيم مى شود. - ادغام ميانكين به جاى انتخاب حدا مقداره مقدار متوسط را در هر پنجره ادغام محاسبه می کند و آن را حفظ می کند. -ادفام میانگین زمانی می تواند مفید باشد که مکان دقیق ویژگی ها اهمبت کمتری داشته باشد و نمایش کلی تری مورد نظر باشد, هر دو ادغام حداکثر و ادغام میانگین عملیات قطمی هستند و شامل عنوان نوعی کاهش ابعاد عمل می کنند. ارامترهای قلبل بادگیری نیستند.آنها با جمع آوری اطلاعات از مناطق همسایه و حفظ مهم ترین اطلاعات به مزاياى ادغام در 1010© ها عبارتند / ۱ كاهش ابغاد: ادقام ابناد فضابى نقشة هاى ويزكى را كافش مى دهد و در نتيجه تعداد بارامترها و بيجيدكى محاسباتى كمترى در لابه هائ بعدى ايجاد مى شود ين امبر نيازهاى حافظه را كاهش مى دهد و آموزش و استنتاج رأ تسريع مى كند. ؟. باياى انتفال: ادغام به دستيابى به درجه اى از باياى انتفال كمك مى كند و شبكه را قادر مى سازد ما ويذكى ها را بدون توجه به مكان دقيق آنها در ورودی تشخیص دهد. این كار به ويزه در كارهايى كه موقميت مكانى ويزكى ها كمتر مرتبط اسست. مانند تشخیص اشيا مفيد ا. ۲ استحکام نسبت به تغیبرات: ادغام درجه ای از استحکام را بای تفیبرات کوچک يا اعوجاج در دادة هاى ورودى قراهم مى كند. با تجميع اطلاعات از تواحى مخلى. ادغام مى تواند ابه مركو شباكه بر ووى برجستة ثرين و تلبت ائرين ويؤكى ها أكماق كلد

صفحه 30:
۴ ادامه با اين حال. توجه به اين نكته مهم است كه ادغام مى تولند منجر به از دست دادن اطلاعات مکلنی شود. نمونه برداری پایین ارائه شده توسط ادغام. وضوح نقشه های ویژگی را کاهش می دهد و به طور بالقوه جزئیات ریز را از دست می دهد. در پرخی موارده این از دست دادن اطلاعات ممکن است نامطلوب باشد. به ویژه در کارهایی که مکان یابی مکانی دقیق بسیار مهم است. مانند تشخیص شی يا قطعه بندی معنایی: به طور کلی. ادغام یک عملیات ارزشمند در ‎cot la CNN‏ که نقش کلیدی در کاهش ابعاد افزلیش کارلیی محاسباتی. و گرفتن ویژگی های مهم در حین دستیایی به عدم تغییر ترجمه ایفا می کند. انتخاب اندازه. گام و نوع ادغام (ادغام بيشینه. ادغام میانگین و غیره) یه مشکل خاص و ویژگی های مورد نظر شبکه پستگی درد

صفحه 31:
10 مزایای استفاده از 8( در وظایف تشخیص تصویر چیست؟ شبکه‌های عصبی کانولوشتال (/11( دارای چندین مزیت هستند که نها را بای کارهای تشخیص تصویر بسیار مزثر می‌سازد. در ینجا برخی از مزايلى كليبي ذکر شده است: ‎.d‏ یادگیری ویزگی سلسله مراتیی: !6 ها برای یادگیری خودکار تمایش سلسله مراتیی داده های ورودی طراحی شده اند. از طریق چندیین لابه عملیات کانولوشن و دغام. ‎uo Lo CNN‏ توانتد ویژگی های پیچیده و اتزاعی فزینده ای را از مقادیر پیکسل خام دریافت کنند. این یادگیری ویژگی سلسله مراتبى به ‏ل ها اجازه مى دهد تا لبه هاء بافت هاء اشكال و نمایش اشیاء سطح بالاتر را در یک تصویر تشخیص دهند. ‎ ‏میدان های دریاقتی محلی: !۲ ها از مفهوم ميدان هاى دريافتى محلى بهره بردارى مى كنند. به اين معنى كه هر نورون در یک لایه کنلوشن, به جای کل ورودی فشط به یک ناحیه محی از ورودی متصل نتم لين اتصال مجلى بد شبکه اجره می‌دهد تابر روی مرت وبستگی‌های فشلبی و الگوهای محلی درون تصوير ‏تمرکز کند و لالا|نها را برای کارهایی که روابط مکائی مهم هستند. مانند تشخیص اشیاء مناسب می‌ساز ‏۳ بايا انتفال: 1010© ها درجه لى از باياى انتفال را نشان مى دهند. به اين معنى که می توننداشیا یا گوها را بدون توجه به موقمیت دقیق آنها در تصویر ورودی تشخیص دهند. لین ویژگی از طریق استفده از ایه های ادغام. که اطلاعات تاحیه های محلی را جمع آوری می کند و برجسته ترین ویژگی ها را حفظ می کند. به ‏زيرا لين امكان را براى تغييرات فضليى كوجك. مانند موقعيت يا جهت كيرى شى. فراهم ‎ ‏دست می آید باياى أنتفال در كارهاى تشخيص تصوير بسيار مطلوب 1 ‎ ‏إلى كنف

صفحه 32:
‎VO‏ ادامه..؟ ‏۴.به اشتراک گذاری پارامتر: 6۱1/1 ها از اشتراک گذاری پاامترها استفاده می کنند. كه به استفاده از مجموعه اى از وزن ها (فيلترها) در مکان های فضایی مختلف ورودی اشارهدارد. این به اشتراک گذاری پارمترها به طورقابل توجهی تعناد پارمترهای قابل آموزش را در مقایسه با معماری های تمام متصل کاهش می دهد و ۲ هار از نظر محاسباتیکارآمدتر و آموزش را آسان تر می کند ‏۵ كافش حساسيت به تغييرات محلى: 1001© ها نسبت به تغييرات كوجك محلى يا اموجاع در داده هاى ورودى حساسيت کمتری دارند. 6118 ها ‎ee Jus‏ ويزكى هاى سلسله مراتبى و عمليات ادغام. مى توانند بر روى درك ويزكى هاى معنليى سطح بالا تمركز كنند در حللى كه جزئيات يا تويز نامربوط را ناديده مى كيرئد. لين استحكام نسبت به تغييرات محلى باعث می‌شود که لها در برابر تفییرات جزئی در شرلیط نوری. وضعیت جسم یا به هم ریختگی پس‌زمینه تحمل بیشتری داشته بشند. ‎ ‏ع آموزش انتقالى: ‎shige clo CNN‏ دید بر روی مجموعه داده هاى تصويرى در مقياس بزرك. مانند :0061 ©1789 ويذكى هاى غنى و قابل تعميم را آموخته اند. لين مدلهاى از بيش آموزشديده شده را مىتوان بدعتوان نقطه شروع براى كارهاى جديد تشخيص تصوير. حتى با دادمهاى برجسبكذارى شده محدوده استفاده كرد. يادكيرى انتقللى با 61 ها اجازه می دهد تا ز داتش به دست آمده از يك كار يا مجموعه داده استفاده كنيد و لن را به دیگری اعمال كنيد. در زمان آموزش صرفه جويى كنيد و عملكرد را بهبود بخشيد. ‎ ‏1 عملكرد بيشرفته: 1014© ها به طور مداوم در معیازهای مختلف تخخیص تصویر از جمله طبقه بندی نصویر تشخیس اشیا و وطلیف قطعه بندی تصويره يه عملكر: بيشرفته اى دست ياقته اند. آنها از روش‌های یادگیری ماشینی سنتی پیشی گرفه‌ند و به رویکردی برای بسیاری از مشکلات بیناییکامپیوترتبدیل شد‌اند. ‏ین مزیا ).ها رابهستون فقرات سیستم های تشخیص تصویرمدرن تبدیل کرده است. توائليى أنها در يادكيرى خودكار ويزكىهاى سلسله مراتيى. بهرمبردارى از روابط فضایی محلی, و نشان دادن پایای انتفال, لها را قادر می‌سازد تا در استخراج اطلاعات معنی‌دار از تصاویر و طبقه‌بندی یا تشخیص دقیق اشیاء درون آن‌ها ‏برتری داشته باشند.

صفحه 33:
‎IF‏ مفهوم شبکه های عصبی باز گشتی <۸01) چیست؟ ‏شبکه های عصبی بازگشتی ((۱۷*]) نوعی شبکه عصبی هستند که به طور خاص برای مدیریت داده های متوللی مانند سری های زمانی. متن. گفتار یا هر داده ای با وابستگی زمانی طراحی شده اند. برخلاف شبکه‌های عصبی پیش‌خور. که داده‌های ورودی را در یک گذر پردازش می‌کنند. ل۱۷۱*آها دارای اتصالات بازخوردی هستند که به اطلاعات اجازه می‌دهد در مراحل مختلف زمانی بافی بمانند و به اشتراک گذاشته شوند. اين کار ‎٩۱1!‏ ها را ‏قادر می سازد تا وایستگی های زمانی را در داده ها مدل سازی و درک کنند. ‏مفهوم کلیدی ‎٩۱۷!‏ ها اتصال بازگشتی است که به شبکه اجازه می دهد یک حللت یا حافظه داخلی را حفظ کند که می تولند به روز شده و تحت تأثیر ورودی فعلی و همچنین حالت قبلی باشد. این حافظه. ‎RN‏ ها را قادر می سازد تا داده های متوالی را با گنجاندن اطلاعات مراحل زمانی گذشته و در عین حال در نظر گرفتن ورودی فعلی پردازش کنند ‏در اینجا تحوه عملکرد ۸۷ ها آمده است:

صفحه 34:
۶. ادامه..؟ ا.اتصالات از" - در یک !۰۸۷ هر نورون دارای یک اتصال بازگشتی است که خروجی خود را به عنوان ورودى براى مرحله زمانى بعدى تغذيه مى كند. اين حلقه بازخورد به شبكه اجازه مى دهد تاحافظه يا حالت ينهانى را حفظ كند كه خلاصه اى از اطلاغات ديده شده تا کنون است. - حالت ينهان .محتوا يا تمايش ورودى هاى كذشته را مى كيرد و بر بردازش ورودى فعلى تأثير مى كذارد. ۴زمان بازگشایی: - رای ‎ISIN cen sailed‏ صورت بر شده در طول ردان به تم ویر کشیده می شون + هر مرحله بارگشایی پردازش [181۱ را مر یک مرحلهزماتی خاص تشان می دهد که ورودى ها وخروجى ها به صورت امتوالى جريان دارقد. ۲ آموزش و پس انتشار - ۸/۱1 هابا استفاده از يس انتشار در طول زمان (8811). توسعه دهنده الكوريتم يس انتشار استاندارد . آموزش ذاده مى شوند. - 8۳۲۲ شامل بازشدن 0080 هر طول زمان. هر نظر تكرفتن آن به عنوان يك شبك عصبى بيشخور عميق و استفاده از الكوريتم يس انتخا ستانارد است. - كراديان ها در طول زمان منتشر مى شوند وبه شبكه اجازه مى دهند وزن هليى را كه بر وضعيت ينهان و بيش بينى هاى خروجى تأثير مى كذارند ياد بكيرد وه روز =

صفحه 35:
۶. ادامه..؟ ۴ حافظه کوتاه ‎(LSTM) gy gb cu‏ 9 واحدهای بازگشتی 031550 ‎(GRU) jo‏ - ۹0۷8 های سنتی از مشعل مجو كراديان رنج می برند. که تانیی آنها را برای گرفتن وابستگی های ملولاتی مدت در داده ها مسدود می کند. - برای پرداختن به این موضوع. معماری های پیشرفته ۱۷8۷ مانند حافظه کوتاه مدت طولانسی(/۷آ کا) و واحدهای بازگشتی دروازه دار( 313))معرفی شده اند - شبکه های 5۷ و (3) شامل مکانیزم های اضافی به نام دروازه ها هستند که به طور انتخلبی جریان اطلاعات را کنترل می کنند و از مجو یا انفجار گرادیان ها جلوگیری می کنند. - این معماری‌های دروازه‌ای» ‎LERNN cables‏ را برای درک و یادگیری وابستگی‌های بلندمدت بهبود بخشیده‌اند. و آنها را در کارهایی که به اطلاعات زمیه‌ای دوربرد نياز دارند. موثرتر كرددائد. |۱۷ هبه طور كستردم در كاربردهاىمختلفاز جمله بردازشزبانطبيعى تشخيصكفتر. تسرجمه ماشينى تحليإحساساتو پسیش_ینی سرىهاوزمانىإستفاده مىشوند تولنايولرها در مد ازوداده‌هایمتواسلیو درکولبستگیاوزمانیآنها را برلوكارهايوكه يمينه و تسرتيبهادمها بسير مهملسستمناسيممازد. بالمينحللشايانذكر لسمتكه 1010 هائيستاندارد به دليلمشكلمحو كراديازمىت ولنند با منبلله ها سير طولائی‌مستو يسنجه رم کسنند در چنینهواردی‌معمیی‌های/ 57| با (ا 3 لغلمتسرچیج داده می‌شوند

صفحه 36:
۷. مفهوم شبکه های حافظه کوتاه مدت طولانی(/۲1 5.) را توضیح دهید. شبکه‌های حافظه کوتاه‌مدت طولاتی (71۷1 15) نوعی معماری شبکه‌های عصبی باز گشتی ‎)6٩۱۷!(‏ هستند که برای غلبه بر محدودیت‌های ‎GORNN‏ ‏سنتی در درک وابستگی‌های بلندمدت در داده‌های متوللی طراحی شده‌اند. شبکه‌های ‎LSTM‏ برای رسیدگی به مشکل محو گرادیان معرفی شدند. که توانایی ]ها را برای انتشار و یادگیری اطلاعات در دنباله‌های طولانی مختل می‌کند. مفهوم کلیدی پشت شبکه‌های ۲1۷ 5 معرفی سلول‌های حافظه تخصصی است که به شبکه اجازه می‌دهد به طور انتخابی اطلاعات را در مراحل زمانی مختلف به خاطر بسپرد یا فراموش کند. لین سلول های حافظه توسط مکانیزم های دروازه ای کنترل می شوند که جریان اطلاعات را از طریق شبكه تنظيم مى کنند. در اينجا نحوه عملكرد شبكه هاى 11/1 5] آمده است: ‎.١‏ سلول هاى حافظه: ‏- شبكه هاى ‎LSTM‏ حاوی سلول های حافظه هستند که به عنوان بلوک های ساختمانی اساسی شبکه عمل می کنند. - هر سلول حافظه یک حالت داخلی دارد که نشان دهنده اطلاعات انباشته شده یا حافظه شبکه است. ‏- وضعیت داخلی را مى توان بر اساس ورودى و زمينه فعلى به روز. اصلاح و به طور انتخابی فراموش کرد

صفحه 37:
۷ ادامه.... ۲درواژه ها - شبکه های 51| مکانیزم های دروازه ای را برای کنترل جریان اطلاعات در داخل شبکه و به روز رسانی انتخابی سلول های حافظه در خود جای ی ده - سه نوع اصلی دروازه در شبکه های 1577 وجود دارد: آ. دروازه فراموشی: تعیین می کند که کدام اطلاعات از وضعیت داخلی قبلی فراموش شود. اب دروازه ورودی: تعیین می کند که کدام اطلاعات جدید در وضعیت داخلی فعلی گنجانده شود. ‎ee oe ee See re‏ فعلى نشان جاده شود ۳ توابع فعال سازی: ‏- شبکه‌های ۷ آ 15 از توابع فعال‌سازی برای کنترل مقادیر و تبدیل‌های درون سلول‌ها و دروازه‌های حافظه استفاده می‌کنند. ‏- متداول‌ترین توابع فعال‌سازی مورد استفاده در شبکه‌های ۲1۷ 8] تابع سیگموید (برای مکانیزم‌های دروازه‌ای) و تابع مماس هایپربولیک (۵۳0) (برای حالت داخلی) هستند.

صفحه 38:
۷ ادامه.... ۴ آموزش و پس انتشار - شبکه های 51 با استفاده از پس انتشار در طول زمان (1 8۳۲ مشابه ‎]٩(([‏ های سنتی آموزش داده می شوند. - گرادیان ها به موقع از طریق شبکه باز شده منتشر می شوند و به شبکه اجازه می دهند پارامترهای (وزن ها) کنترل کننده دروازه ها و سلول های حافظه را یاد بگیرند و تنظیم کنند. - فرآیند آموزش شامل بهینه سازی یک تابع هدف. مانند به حداقل رساندن خطای پیش بینی یا به حداکثر رساندن احتمال دنباله هدف است. مزیت کلیدی شبکه های 1571 تونلیی آن ها در ضبط و به خاطر سپردن وابستگی های دوربرد در داده های متوللی است. مکانیوم‌های دروزه‌ای به شبکه اجازه می‌دهد تا اطلاعات را به‌طور انتخلبی حفظ یا فراموش کند. و شبکه را قادر می‌سازد تا یاد بگیرد کدام بخش از دنبلله ورودی برای پیش‌بینی یا طبقه‌یندی مهم است. این کار باعث می‌شود شبکه‌های ۲1۷ 8 در کارهایی که زمینه بلندمدت آن حیاتی است. مانند مدل‌سازی زبان؛ تشخیص كفتار. تحلیل احساسات و پیش‌بینی سری‌های زمانی. بهويؤه مؤثر باشد. شبكههاى 511/1 به دليل تواناب شان در رسيدكى به مشکل محو گرادیان و مدل‌سازی وابستگی‌های بلندمدت.به یکی از پرکربردترین معماری‌ها در زمینه یادگیری عمیق تبدیل شده‌اند. این شبکه هابه طرق مختلف توسعه یافته و اصلاح شده اند. از جمله انواعی مانتد /11 15 چشمی, 15۲0 دوطرفه و ‎LSTM‏ انباشته. تا قابلیت های خود را در برنامه های مختلف افزایش دهند.

صفحه 39:
۸. چگونه ۲1۷ 5 ها به حل مشکل محو گرادیان در 8 کمک می کنند؟ 0 ها (حافظه كوتاد مدتطولاني) بسه طور خاصیرلی‌رسیدگیسه مشکل‌محو گرادیاندر ,۱۷] هایس نتی(شبکه هایعصبیب لگشتیع طراحىشده لند مشكلمحو كراديازيمان إتفاقملفتد كه كرادياهايوكه در طوليمانسه عقبمنتشر ميث وند بسه طور تصاعدیک اهش ی ابند. و یادگیروو درکولبستگهای_لدمدتدر دادمهایم توا لیرا برلی بکه دشوار مرک ند. !157 هالی نم شکلرا ب-الستفاده از س لولهای‌حافظه تخصصیو مکانبرم هایدروازه لی‌ک اهش‌می‌دهند. در اینجا نحوه کمک 151۷ ها به حل مشکل محو گرادیان آمده است: ۱. سلول های حافظه: - 1101 كا ها سلول هاى حافظه را معرفى مى كنند كه به شبكه اجازه می دهد اطلاعات را در دنباله های طولانی ذخیره و منتشر کند. - سلول هاى حافظه يك حللت داخلى دارند كه مى تولند اطلاعات را در طول زمان حفظ كند و شبكه را قادر مى سازد وابستكى هاى طولاتى مدت را درک کند. - سلول های حافظه یک مسیر پادار رای انتشار گرادیان ها در طول زمان بدون تخریب قابل توجه را فراهم می کنند.

صفحه 40:
‎VA‏ ادامه...؟ ‏۲ مکانیزم های درواز ‎ ‎LSTM -‏ ها مکانیزم های دروازه ای را در خود جای می دهند که جریان اطلاعات را به داخل و خارج سلول های حافظه کنترل می کند. - مکانیزم های دروازه ای شامل توابع سیگموید و ‎CANN‏ هستند که مقادیر و تبدیلات درون شبکه را تنظیم می کنند. ‏- دروازه های کلیدی در یک 15716 عبارتند از دروازه فراموشی. دروازه ورودی و دروازه خروجی. ‏آ. دروازه فراموشی ‏- دروازه فراموشی تعیین می کند که چه اطلاعاتی را از حالت داخلی قبلی حذف کنید. ‏- عالت داخلى قبلى و ورودى فعلى را به عنوان ورودى و خروجى يك صريب فراموشى بين و١‏ براى هر عنسر حلات داغاي مي كيرد ‏- عامل فراموشى تعيين مى كند كه جه مقدار از حالت داخلى قبلى بايد فراموش شود.

صفحه 41:
‎VA‏ ادامه...؟ ‏ب دروازه ورودی: ‏- دروازه ورودی تصمیم می گیرد كه کدام اطلاعات جدید را در وضعیت داخلی فعلی گنجانده شود ‏- حالت داخلی قبلی و ورودی فعلی را بهعنون ورودی می گیرد و برای هر عنصر حالت داغلی یک ضريب ورودى بين ‎٠‏ تا ‎١‏ را خروجی می کند - ضریب ورودی نعیین می کند که چه مقدار از اطلاعات جدید ‎ub‏ به وضعیت داخلی فعلی اضافه شود. ‏ج. دروازه خروجی: ‏- دروازه خروجی کنترل می کند که چه مقدار از حالت داخلى يايد بهعنوان خروجی در مرحله زمانی فعلی نشان داده شود ‏- حالت داخلی قبلی و ورودی فعلی را بهعنوان ورودی می گیرد و برای هر عنصر حالت داخلی ضریب خروجی بین ۰ تا ۱ ولید می كند. ‏- شرب خروجى تين هي أكند كاه مقداراز عالت تاخلى بايد به عنوان خروجي در معرض ديد قرار كيرد ‏مکانیزم‌های دروازه ای به ۲1۷ گاها اجازه می‌دهند تا اطلاعات را در مراحل مختلف زملنی به‌خاطر بسپارند یا فراموش کنند. و به شبکه اجازه می‌دهد دنبالههاى طولانى را به طور مؤثرترى مديريت كند.

صفحه 42:
‎VA‏ ادامه...؟ ‏جريان كراديان: - مكانيزم هاى دروازه اى در 1:31 كا ها به اطمينان از جريان كراديان ملايم تر در طول زمان كمك مى كند. - دروازه فراموشى و دروازه ورودى كه توسط توابع سیگموید کنترل می شوند. از محو يا انفجار كراديان ها جلوكيرى مى كتند. ‏- با به روز رسانی انتخلیی و حفظ اطلاعات در سلول های حافظه. ‎lo LSTM‏ 2 توانند گرادیان ها رابه طور موثرتری در دنبلله های طولانی منتشر ‏ازد تا وابستگی های طولائی مدت را نگه داری کند. ‎ ‏کنند و شبکه را قادر می ‏با ترکیب سلول‌های حافظه و مکانیزم‌های دروازه ای. 1۷1 گاها مکانیزمی را برای |۱|۷*آها فراهم می‌کنند تا مشکل محو گرادیان را برطرف کنند. ‎ ‏سلول های حافظه به شبکه اجازه می دهد تا اطلاعات را در دنباله های طولانی ذخیره و منتشر كند. در حالی که مکانیزم های دروازه ای. جریان اطلاعات و گرادیان ها را کنترل می کنند. اين کار به ۷1 آ گاها اجازه می‌دهد تا وابستگی‌های طولانی‌مدت را در داده‌های متوالی دریافت کنند و به ‏مور موثرتری آموزش دهند. که منجر به بهبود عملکرد در وظایفی می‌شود كه نياز به مد لسازى روابط زمانى دارند.

صفحه 43:
‎٩‏ رمزگذارهای خودکار در یادگیری عمیق چیست؟ ‏رمزگذارهای خودکاره مدل‌های یادگیری عمیق بدون نظارت هستند که هدف ن یادگیری ویژگی‌های کارآمد یا فشرده‌سازی داده‌های ورودی است. ۱ مدلها از یک رمزگذار و یک رمزگشا تشکیل شده اند که با هم کار می کنند تا داده های ورودی را بازسازی کنند. هدف از رمزگذارهای خودکار به حداقل رساندن خطای بازسازی است و مدل را مجبور می‌کند تا ویژگی های معنادار و فشرده را در فرآیند یاد بگیرد. ‎ ‏در اینجا نحوه کار رمزگذارهای خودکار آمده است؛ ‏۱. رمزگذار ‎ ‏- رمزگذار داده های ورودی را می گیرد و آنها را ه یک ویژگی فضای پنهان با اعاد پیین تر نگاشت می ‎BS‏ ‏- رمزگذار معمولاً از یک یا چند لایه پتهان تشکیل شده است که به تدریج ابعاد ورودی را کاهش می دهد. ‏- هر لایه پنهان یک تبدیل خطی و به دنبال آن یک تلبع فعال سازی غیرخطی مانند 51000010 یا ل1 86 اعمال می کند تا رولبط غیر خطی در داده ها را درک کند. ‏- لابه ينهان نهابى ويزكى نهفته فشرده را كه به و و

صفحه 44:
‎٩‏ ادامه..؟ ‏۲ رمزگشا ‏- رمزکشا ویژگی فشرده شده را از رمزگذر می گیرد و سعی می کند داده های ورودی اصلی را بازسازی کند ‎ ‏رمزگشا نیز مانندرمزگذار معمولً از یک یا جند لايه بنهان تشکیل شده ‏- هر لايه بنهان يك تبدیل خطی و به دنبال آن يك تابع فعال سازى اعمال مى كند تا ویژگی فشرده شده را ه اعد ورودی اصلی نگاشت کند. ‏- لايه نهابى رمزكشا خروجى بازسازى شده را توليد مى كند كه در حالت ايده آل بايد شباهت زيادى به ورودى اصلى داشته باشد.

صفحه 45:
‎٩‏ ادامه...؟ رمزكفارهاى شود فا روکد ری دنفرت آوزش اه ی ود ‎ign GaAlAs Gals ale dicen ‎ ‎ ‏تواع زيان متدلول مورد فاده راى رم زكذاهاى خودكار شامل ميذكين مربعات ‎MSE)‏ یی یل ‎any las ane tg‏ ‎ ‏ون بر رز طرش پس ارو ول ردب وم شود خی مزب ال برد رو خر دی کردم رت زد ‎sas ‏ب ‎Hk ly lets PA‏ ى تود عل ذل ها ورودى راب طور مور كاطق دهن ‏ين كل مى توق را نیش داد هی عا يل ‎gal gti i a‏ ای زاین هتی فد اد مس ور ‎Pane ye Hi cay‏ هی دی ام نات مهم درک ند ‏نيس مى تان ‎Sig EI‏ موخت ‎lyn‏ نی دی تست تفت ماد طبقه دی پا زگرسون اس كود ‎ ‎yl dl a sgh ls LY oy LL gos ay go Noh‏ دی تشخ دهند ‎heh ul yaar pena os Ds‏ يعار حار جد مان معبدم ‎a ths ftp‏ لس

صفحه 46:
‎٩‏ ادامه..؟ ‏۴ نویز زدایی: ‏- رمزگذارهای خودکار را می توان برای بازسازی داده های تمیز از ورودی های نویز آموزش داد. ‏- با یادگیری نادیده گرفتن يا حذف نویز در طول فرآیند بازسازی, رمزگذارهای خودکار می تونند سیگنال زیر را حذف کرده و بزیبی کنند. ‏۵ مدل سازی مولد ‏- انواع رمزگذارهای خودکاره مانند. رمزگذارهای خودکار متغیر (۷//۹۳5). می توانند بای کارهای مدل سازی مولد استفاده شوند. ‏- ۷/۶ ها مى تونند توزیع احتمالی را در فضای پنهان بیاموزند و اجازه تولید نمونه های جدید مشابهداده های آموزشی را می دهند. ‏رمزگذارهای خودکار چارچوبی منعطف و قدرتمند برای یادگیری بدون نظارت و نمایش ارائه می دهند.آنها می تونند نمليش هاى فشرده را بياموزقد. ‏ویژگی های معنی دار را استخراج کنند. ناهنجاری ها را تشخیص دهند. و حتی نمونه های داده جدیدی تولید کنند. رمزگذارهای خودکار با توانایی خود در ضبط و فشرده سازی اطلاعات به ابزار مهمی در زمینه یادگیری عمیق تبدیل شده اند.

صفحه 47:
۰ چگونه می توان از رمزگذارهای خودکار برای کاهش ابعاد استفاده کرد؟ رمزگذارهای خودکار می توانندبرای کاهش ابعد با استفاده از تونیی آنها در یادگیری ویژگی های فشرده داده های ورودی استفاده شوند. در اينجا نحوه استفاده از رمزگذارهای خودکار برای این منظور آورده شده است: ۱. آموزش رمزگذار خودکا - برای استفاده از رمزگتار خودکاربرای کاهش ابعاف بايد مدل را روی داده های ورودی خود آموزش دهید. - رمرگذار خودکار از یک شبکه رمزگذار ویک شبکه رمرگشا تشتکیل شده است که یک لابه کلوگاه در بین لن قرار دارد که ویزگی فشرده شده را نشان ‎Rast‏ - در طول آموزش. رمزكذار ياد مى “كيرد كه داده های ورودی را به ویژگی فشرده نگاشت کند و رمزگشا یاد می گیرد که ورودی اصلی را از ویژگی فشرده بازسازی کند.

صفحه 48:
۰ ادامه...؟ ۲ نمایش فشرده: - پس از آموزش, لایه گلوگاه خودکار رمزگذار ننشان دهنده ویژگی فشرده يا فضاى ينهان |. - اين فضاى پنهان معمولاً در مقایسه با داده های ورودی اصلی ابعاد کمتری دارد - هر نقطه در قضای پنهان مربوط به یک ویژگی فشرده از یک نمونه ورودی است. © رمركنارى و ریا - برای اتجام کاهش ابعاد با استفاده از رمزكذار خودكار آموزش ديدهء مى توانيد از شبكه رمزكذار براى رمزكذارى داده هاى ورودى خود استفاده كنيد. - رمزكذار داده هاى ورودى را به نمايش فضاى بنهان با ابعاد بايين تر نكاشت مى كند. - ابعاد فضاى بتهان به علور معمول بر اساس بطح مطلوب قشرده مازى يا كله ابعاد انتخاب مى شود

صفحه 49:
۰ ادامه...؟ ۴ استخراج ویژگی کاهش يافته: - هنگامی که داده های ورودی در فضای پنهان کدگذاری می شوند. می توانید ویژگی فشرده را از لایه گلوگاه استخراج کنید. - این ویژگی فشرده نشان دهنده یک جاسازی با ابعاد پایین تر از داده های اصلی است. با استفاده از رمزگذارهای خودکار برای کاهش ابعاد. می توانید به مزایای زیر دست یابید: ۱. کاهش ابعاد: - رمزگذارهای خودکار به شما امکان می دهند ابعاد داده هاى ورودى با ابعاد بالا را كاهش دهيد. - ويزكى فشرده در فضاى بنهان ابعاد بابين ترى نسبت به داده هاى اصلى دارد كه مى تواند کارهای تجزیه و تحلیل یا نمایش بعدی را ساده کند. ۲ حفظ ویژگی های مهم: - رمزگذارهای خودکار با هدف یازسازی ورودی اصلی از نمایش فشرده. که مدل را تشویق می کند تا مهمترین ویژگی های داده ها را به تصویر بکشد. یژگی فشرده آموخته شده مرتبط ترین اطلاعات را حفظ می کند. در حالی که ویژگی های اضافی یا کمتر مهم را کنار می گذارد.

صفحه 50:
۰ ادامه...؟ ۳ حذف نویز: - رمزگذارهای خودکار همچنین می توانند برای حذف نویز داده های ورودی در طول فرآیند بازسازی استفاده شوند. - رمزگذار یاد می گیرد که اطلاعات معنی دار را از داده های نویزدار استخراج کند. در حالی که رمزگشا سعی می کند داده های اصلی و تمیز را بازسازی کند. - این اثر حذف نویز می تواند هنگام برخورد با داده های ورودی نویزدار یا خراب مفید باشد. ۴ حفظ روابط: - رمزگذارهای خودکاره با درک ساختار زیربنایی داده هاء می توانند روایط خاصی را بین نقاط داده در ویژگی فشرده حفظ کنند. - نقاط داده مشلیه در فضای اصلی اغلب در ویژگی فشرده یه یکدیگر نزدیک هستند. که امکان خوشه بندی معنادار یا تجزیه و تحلیل مشابه را فراهم فى كيد رمزكذارهاى خودكار يك رويكرد قدرتمند براى كاهش ابعاد ارائه مى كنند. زيرا مى توانند ويذكى های معنی دار و فشرده داده های ورودی را بیاموزند. با استفاده از ویژگی های فشرده به دست آمده از لایه گلوگاهه می توانید به طور موثر ابعاد داده های خود را كاهش دهيد و در عين حال اطلاعات مهم را حفظ كنيد و به طور بالقوه وظايف تجزیه و تحلیل بعدی را ساده کنید.

صفحه 51:
مفهوم شبکه های مولد تخاصمی (31)) چیست؟ شبکه‌های مولد تخاصمی (3/۵/15)) کلاسی از مدل‌های یادگیری عمیق هستند که از دو جزء تشکیل شده‌اند: یک شبکه مولد و يك شبكه متمايزكر. ۷ ها برای تولید نمونه های جدید داده ای طراحی شده اند که شبیه ‎cold‏ های آموزشی باشند و با قرار دادن مولد در مقابل متمایزگر به شیوه ای رقايتى عمل عي النند. در اينجا نحوه عملكرد [6/41 ها آمده است: ‎.١‏ شبكه مولد: ‏- شبكه مولد تويز ورودى تصادفى (بردار فضاى بنهان) را به عتوان ورودی می گیرد و سمی می کند نمونه هاى داده مصتوعى توليد كتد. ‎ ‏- مولد با نویز تصادفی شروخ می شود و به تشریج آن را به تمونه های داده ای تبدیل می کند که شبیه داده های آموزشی - معمولاً از جندين لايه. از جمله لايههاى تمام متصل يا كانولوشتال تشكيل شده و به دنبال آن توابع فعالسازى قرار مىكيرند. ۲ شبکه متمایزگر ‏- شبکه متمایزگر به عنوان یک طیقه بندی کتنده باینری عمل مى کند که بین نمونه داده های واقعی و تولید شده تمایز ‎ ‏ل مى شود. - يك نمونه داده واقعى از مجموعه آموزشى يا يك نمونه توليد شده از مولد را به عنوان ورودى مى كيرد و واقعى يا جعلى بودن آن را بيش بينى مى كند. ‏متمایزگر با استفاده از ‎ipa‏ داده های واقعی با برچسب ‎gaily‏ | نمونه های تولید شده با برچسب “جملى" أموزش سى بیند.

صفحه 52:
‎FY‏ دامه..؟ ‏۳ آموزش خصمائه: ‏- شبکه های مولد و متمایزگر به طور همزمان به صورت خصمانه آموزش داده می شوند ‏- هدف مولد تولید نمونه های مصنوعی است که متمایزگرنتواند از نمونه های واقمی تشخیص دهد. - هدف متمایزگر طبقه بندی صحیح بین نمونه های واقعی و تولید شده است. ‏- شبكه هاى مولد و متمايزكر با يكديكر رقابت مى کنند و هر كدام سعى مى كنند از ديكرى بيشى بكيرند. ‏۴ فرآیند آموزش: ‎ ‏- فرآیند آموزش به طور متناوب بین به روز رسانی مولد و شبکه های متمایزگر است. - در طول هر تکرار. دسته ای از نمونه های داده واقعی و دسته ای از نمونه های تولید شده برای به روز رسانی وزن های متمایزگر استفاده مى شود. ‏- وزن های مولد بر اساس گرادیان های تصمیم متمایزگر نسبت به نمونه هاى توليد شده به روز مى شود. ‏- این روند آموزش خصمانه تا زمانی ادامه می یابد که مولد نمونه های مصنوعی تولید کند که از نمونه های واقعی قابل تشخیص نیستند.

صفحه 53:
‎FY‏ دامه..؟ ‎Le GAN Gan‏ آموزش شبکه مولد برای یادگیری توزیع زیربنایی داده های آموزشی است و آن را قادر می سازد نمونه های جدیدی تولید کند که شبیه داده های واقعی است. مولد با یادگیری از بازخورد ارلئه شده توسط متمایزگر بهبود می یابد. با پیشرقت آموزش, مولد در تولید نمیته های واقمی ‏بهتر می شود. در حالی که متمایزگر در تمایز ین نمونه هایواقمی و تولید شده دقیق تر می شود. ‎GAN‏ هابه ملیلوناییآنها در تسولید دادم هایمصوعی سير ولقمىو متنوع توجه قابلتوجهورا به خود جلبک رده اند آنها با موفقيتدر حوزم های‌مختلفاز جمله سنتر تصویر سولید متن تسولید موسیقیو تولید ویدئو استفادم شده لن. 3۸(1) ها همچنینسه پسیشرفتهایدر زمینه هايىمانند تسرجمه تسصویر پسه تسصویر, انتقللیسبکو دادم افزلیی‌دستی افته لندو لمکاناتهیجاانگیزی اب رلک ربردهای‌شافانه و تسولید دادم در بادكيرىعميقارلئه مودهند

صفحه 54:
۲ اجزای مولد و متمایزگر |66 ها را توضیح دهید. در یک شبکه مولد تخاصمی ((3۸)). دو جزء کلیدی وجود دارد: شبکه مولد و شبکه متمایزگر. این اجزا به شیوه ای رقابتی برای آموزش ‎GAN‏ 9 تولید داده های مصنوعی واقعی کار می کنند. در اینجا توضیحی در مورد هر جزء آورده شده است: ‎.١‏ شبكه مولد ‎ ‏- شبكه مولد مسئول توليد نمونه هاى داده مصنوعى است كه شبيه داده هاى آموزشى ‎ ‏- نويز تصادفى را كه اغلب به عنوان بردار فضاى ينهان نشان داده مى شود. به عنوان ورودى مى كير - مولد . نويز ورودى را به یک خروجی معنی دار تبديل مى كند كه شبيه توزيع داده هاى آموزشى است. - خروجی می تواند بر اساس ‎a‏ مانند تصاويرء متن يا صدأ متفاوت باشد. ‏- به طور معمول, شبکه مولد از چندین لایه. از جمله لایه‌های تمام متصل یا کانولوشن تشکیل شده است. و به دنبال ن توابع فعال‌سازی مانند (۱ا86 یا 51070010 وجود دارد. ‏- در طول آموزش, مولدیاد می گیرد که با به حداقل رساندن توانلیی متمایزگربرای تملیزبین نمونه های واقعی و تولید شده. نویزورودی رابه توزبع داده های واقعی ترسیم کند.

صفحه 55:
۳ دامه... ۲ شبکه متمایزگرء - شبکه متمایزگربه عنوان یک طبقه بندی کننده بینری عمل مى كند كه بين نمونه هاى داده واقعى و نمونه های توليد شده (جعلى) تمليز قلثل می شود - يك نمونه داده واقعى از مجموعه [موزشى يا يك نمونه توليك شده از مولد را به عنوان ورودى می گیره - هدف شیکه متمایزگر تشخیص واقعی با جعلی بودن نموتهپرودی با تلد استياز احتمال است. - متمایزگر معمولاً یک شبکه عصبی کانولوشن (/(2۱۷)) یا یک شبکه عصبی پیشخور با چندین لایه است. با بهینه سازی وزن خود از طریق آموزش, می آموزد که بین نموه ای واقمی و جعلی تمیز ال شود - در طول آموزش, هم نمونههای واقمی و هم نمونههای تولید شده در اختيار متمايزكر قرار مى كيرد و ياد مى كيرد كه احتمالات بالا ريه نمونه هلى واقعی و احتمالات پا را به نمونه های تولید شده اختصاص دهد.

صفحه 56:
۳ دامه... فرآیند آموزش: - فرآیند آموزش 6818 ها شامل يك خلقه آموزشى متخاصم بین مولد و متمایزگر است. - هدف مولد بهبود توالیی خود در تولید نمینه هایواقعی است. در حللی که هدف متمایزگربهبود تونلیی خود در تشخیص نمونه های واقعی و تولید شده است. - مولد و متمايزكر به طور متنوب در هر تکرار ا دسته کوچک آموزش داده می شوند - در طول آموزش متمایزگره با ترکیبی از نمونه های واقعی و تولید شده ارائه می شود و برای بهبود عملکرد طبقه بندی آن به روز می شود. - سپس مولد با استفاده از گرادیان های به دست آمده از تصمیم متمایزگر بر روی نمونه های تولید شده آموزش داده مى شود و هدف آن تولید نمونه هایی است که می تواند متمایزگر را فریب دهد. - لین فرآیند آموزش خصمانه به طور مکرر ادامه می یلبد تا زملنی که مولد بتولند نمینه های مصنوعی تولید کند که از نمینه های واقعی قلیل تشخیص

صفحه 57:
۳ دامه... Al = ell ‏آموزش مولد و متمایزگر با هم. 63/01 ها یاد می گیرند که داده های مصنوعی تولید کنند که بسیار شبیه به داده های آموزشی واقعی است. مولد‎ ‏توانلیی خود را برای تولید نموته های واقعی با یادگیری از بازخورد ارلئه شده توسط متمایزگر بهبود می بخشد. به طور همزمان» متمایزگر در تمایز‎ 4 2 ‏ای‎ ‎A ‏ینه های وا شده دقیق 3 تق‎ ‏نمونه های واقعی و تولید شده دقیق تر می شود. این فعل و انفعال متقابل بین مولد و متمایزگر. 63/0۸۷ را قادر می سازد تا به تدریج توانایی خود را‎ برای تولید داده های مصنوعی با کیفیت بالا بهبود بخشد. 212111111 ۲ 9 توجه به این نکته مهم است که هم شبکه مولد و هم شبکه متمایزگر را می توان تغییر داد يا گسترش داد تا با كاربردهاى خاص مطابقت داشته باشند يا به ویژگی ها دلخواه دست ب خنا ‎i‏ : ويزكى نجاى خروجى دلخوا يابند نتخلب های مختلف معماری و استراتیی های آموزشی را می توان برای افزایش عملکرد و پایداری ‎GAN‏ ها در توليد داده هاى مصنوعى واقعى و متنوع مورد بررسى قرار داد.

صفحه 58:
۳ تفاوت بین یادگیری با نظارت. بدون نظارت و نیمه نظارتی چیست؟ تفاوت بین یادگیری با نظارت. بدون نظارت و نیمه نظارتی در نوع داده های موجود در مرحله آموزش و اهداف یادگیری نهفته است. در اینجا توضیحی در مورد هر یک آمده است؛ .یادگیری با نظارت: یادگیری با نظارت داده های آموزشی شامل نمونه های برچسب گذاری شده است. جلیی که هر نقطه داده با یک هدف یا برچسب مربوطه - هدف یادگیری یک نقشه برداری از ویژگی های ورودی به برچسب های خروجی بر اساس داده های برچسب دار اراثه شده است. - در طول آموزش, مدل با جفت ورودی-خروجی ارائه می شود و یاد می گیرد که از اين مثال ها تعمیم دهد تا داده های دیده نشده را پیش بینی کند. - عملكرد مدل با استفاده از یک تلبع خطا یا زین از پیش تعریف شده ارزیابی می شود و خروجی های پیش بینی شده ن راب برچسب های واقمی مقایسه می کند, - یادگیری با نظارت معمولاً برای کارهای طبقه بندی, رگرسیون و پیش بینی دنبلله استفاده می شود. جایی که متغیر هدف در طول آموزش مشخص

صفحه 59:
۳ ادامه. يادكبرى بدون نظارت: يادكيرى بدون نظارت. داده هاى آموزشى از نمونه هاى بدون برجسب تشكيل شده است. به اين معنى كه هيج برجسب هدف صريحى مرتبط با داده ها وجود ندارد. - هدف یافتن الگوها. ساختارها یا روابط درون داده ها بدون راهنمایی اطلاعات برچسب گذاری شده است. - هدف الگوریتم‌های یادگیری بدون نظارت استخراج نمایش‌های معنادار. گروه‌بندی نقاط داده مشابه یا شناسایی توزیع‌های اساسی در داده‌ها است. - نمونه‌هایی از الگوریتم‌های یادگیری بدون نظارت شامل الگوریتم‌های خوشه‌بندی ( به عنوان مثال, خوشه‌بندی ‎(K-MOANS‏ تکنیک‌های کاهش see (GAN ‏تولیدی (مانند رمزگذارهای خودکار.‎ cla Joc 9 (PCA asits) ole! - یادگیری بدون نظارت به ويه زملنى مفيد است که داده‌های برچسب گذاری شده محدودی وجود داشته باشد يا وجود نداشته باشد. يا زملنى كه هدف كاوش و كسب بينش از دلدمها باشد.

صفحه 60:
۳ ادامه. يادكيرى نيمه نظارتى: - يادكيرى نيمه نظارتى بين يادكيرى با نظارت و بدون نظارت قرار دارد و عتاصر هر دو را تركيب مى كند. یادگیری نیمه نظارتی.داده های آموزشی حاوی ترکیبی از نمونه های برچسب دار و بدون برجسب است. - هدف استفاده از داده های برچسب دار محدود و داده های بدون برچسب اضافی برای بهبود عملکرد یادگیری است. - هدف الگوریتم‌های یادگیری نیمه‌نظارتی استفاده از داده‌های برچسب گذاری‌شده برای یادگیری یک مدل و استفاده از داده‌های بدون برچسب برای درک توزیع يا ساختار زیربنایی داده‌ها است. با استفاده از داده‌های برچسب‌دار و بدون برچسب. یادگیری نیمه‌نظارتی به طور بالقوه می‌تولند عملکرد بهتری نسبت به رویکردهای یادگیری صرفاً با نظارت داشته باشد. زمانی که داده‌های برچسب گذاری شده کمیاب یا گران است. - در یادگیری نیمه نظارتی می توان از روش هایی مانند خودآموزی, آموزش مشترک و مدل های مولد ستفاده کرد

صفحه 61:
۳ ادامه. انتخاب پارادایم یادگیری به در دسترس بودن داده های برچسب گذاری شده. کار خاص در دست و اهداف یادگیری مورد نظر بستگی دارد. یادگیری با نظا ارت زمانی متاسب است که داده‌های برچسب گذاری شده فراوان یاشد و هدف یادگیری نقشهبرداری بین ویژگی‌های ورودی و برچسب‌های خروجی باشد. یادگیری بدون نظارت برای کاوش داده هاء کشف الگوها و استخراج نمایش بدون برچسب های هدف صریح استفاده می شود. یادگیری نیسه نظارتی زمانی به کار می رود که ترکیبی از داده های برچسب دار و بدون برچسب وجود داشته باشد و هدف لین است که از هر دو برای بهبود عملکرد یادگیری استفاده شود.

صفحه 62:
۴ یادگیری انتقالی در یادگیری عمیق چیست؟ یادگیری انتقالی تکنیکی در یادگیری عمیق است که از دانش آموخته شده از یک کار یا حوزهبرایبهبود یادگیری یا عملکرد در یک کار یا حوزه مرتبط دكر استفاده مى كند اين كار شامل كرفتن يك متل از يي آموزش دیده است که اعلب بر روی مک مسموعه داده بزرگ آنوزش داده شده است و از آن به عنوان نقطه شروع برای یک کار یا دامته جدید با داده های برچسب گذاری شده محدود استفاده می کند. به جای آموزش یک مدل از ابتدا در کار جدید. یادگیری انتقالی به مدل اجازه می دهد تا از ویژگی ها و دانش آموخته شده قبلی بهره مند شود. در اینجا نحوه یادگیری انتقالی توضیح داده شده است:

صفحه 63:
۴. دامه..؟ موی - در یادگیری انتقالی, یک مدل از پیش آموزش داده شده در ابدا بر روی یک مجموعه دادهبزرگ, به طور معمول در یک وظیفه یا حوزه مرتبط ‎Seabee!‏ آموزش معمولاً بر روی یک مجموعه داده در مقیاس بزرگ انجام می شود. مانتد 1۳896/164 برای طبقه بندی تصویر یا یک مجموعه متن بزرگ برای وظایف پردازش زبان طبیعی. - در طول آموزش. مدل. ويزكىها. الكوها يا نمايشهاى کلی را می‌آموزد که برای وظیفه های مختلف مفید هستند ۲انتقال: -پس از پیش آموزش, ویژگی ها یا وزن های آموخته شده مدل از پیش آموزش ديده به عنوان نقطه شروع براى يك وظيقه یا حوزه جدید استفاده می فد - لايدهاى نهايى مدل از بيش آموزشديده. كه مختص وظيفه يا دامنه خاص هستند. براى تطبيق با وظيفه جديد جايكزين شده يا بدخوبى تنظيم می‌شوند. - وظیفه جدید ممکن است در مقایسه با مجموعه داده اصلی پیش آموزش, مجموعه داده برچسب‌دار کوچک‌تری داشته باشد.

صفحه 64:
۴. دامه..؟ ۲ تنظیم دقیق: - در فرآیند یادگیری انتقالی؛ وزن‌های مدل پیش آموزش با استفاده از داده‌های برچسب‌گذاری شده مخصوص وظیفه جدید. با دقت بیشتر تنظیم می‌شوند. - پارامترهای مدل با استفاده از داده‌های برچسب گذاری‌شده از وظیفه جدید به‌روزرسانی می‌شوند. در حالی که لای‌های اولیه یا ویژگی‌های سطح بايينتر اغلب ثابت يا با سرعت بادگیری پایین‌تر تنظیم می‌شوند. - تنظيم دقیق به مدل اجازه می دهد تا ویژگی های آموخته شده خود را با ویژگی ها و الزامات خاص وظیفه جدید. مزاياى يادكيرى انتقالى عبارتشد از: ‎.١‏ كاهش زمان آموزش: - يادكيرى انتقالى مى تواند زمان آموزش و منابع محاسباتى مورد نياز براى آموزش يك مدل يادكيرى عميق را به ميزان قابل توجهى كاهش دهد. - با شروع با وزن هاى از بيش آموزش داده شده. مدل قبلا ويزكى هاى عمومى را ياد كرفته است كه تعداد تکرارهای مورد نیاز برای همگرایی در وظیفه جديد را كاهش مى دهد.

صفحه 65:
۴. دامه..؟ ۲ بهبود عملکرد: - یادگیری انتقالی می تواند منجر به بهبود عملکرد شود. به خصوص زمانی که وظیقه جدید دارای مقدار محدودی از داده های برچسب دار باشد. - مدل از پیش آموزش‌دیده. ویژگی‌هایی را از یک مجموعه داده بزرگ آموخته است. و ویژگی‌های کلی را که می‌تولند در وظیفه جدید مفید باشد. به ‎Spe‏ 5 - یادگیری انتقالی به مدل ها اجازه می دهد تا با استفاده از دانش آموخته شده از وظیفه های قبلی» بهتر به وظیفه ها یا حوزه هاى جديد تعميم دهند. - مدل از پیش آموزش دیده ياد گرفته است که ویژگی های مرتبط و مفید را از مجموع داده اصلی استخراج کند که می تولدبرای وظیفه های مرتبط مفید باشد. یادگیری انتقالی معمولً در برنامه های مختلف یادگیری عمیق از جمله طبقه بندی تصویره تشخیص اشیا. پردازش زبان طبیعی و تشخیص گفتار استفاده می شود. لین کار امکان استفاده مجدد و انتقال دلنش را در میان وظیفه ها و مجموعه داده‌ها فراهم می‌کند و یادگیری کارآمد و موثر را حتی زمانی که داده‌های برچسب‌گذاری شده محدود هستند. تسهیل می‌کند.

صفحه 66:
۵ یادگیری انتقالی چگونه به بهبود مدل های یادگیری عمیق کمک می کند؟ يادكيرى انتقالى به جندين روش به بهبود مدل های یادگیری عمیق کمک می کند ۱. استفاده از مدل های از پیش آموزش دیده: یادگیری انتفالی به ما امکان می دهد از مدل های از پیش آموزش دیده استفاده کنیم که بر روی مجموعه داده های بزرگ مقیاس آموزش دیده اند. لين مدل هاى از پیش آموزش دیده ویژگی های کلی, الگوها و ویژگی هلیی را آموخته لند که در طیف وسیعی از کارها مقید هستند, با شروع با این مدل های از پیش آموزش دیده می توانیم از داتشی که آنها به دست آورده لند بهره مند شویم و ما وا از نباز به آموزش یک مدل از ابتدا نجات دهیم. ۲. تعمیم: مدل های یادگیری عمیق که بر روی مجموعه داده های بزرگ مقیاس آموزش ‎oslo‏ شده لن. اغلب ویژگی های غنی و تعمیم یافته ای را می آموزند که قلبل انتقال به وظیفه ها یا حوزه های جدید هستند. یادگیری انتقللی مدل را قادر می سازد تا با انتقال این دانش آموخته شده به وظیفه هدف, به خوبی تعمیم یلبد. حتی زملنی که کار وظیفه دارای مقدار محدودی از داده های برچسب گذاری شده است. مدل از پیش آموزش‌دیده مفاهیم سطح بالا و ویژگی‌های سطح پایین را به تصوير می‌کشد که می‌توانند در وظیفه های مختلف مرتبط و مفید باشند.

صفحه 67:
۵ ادامه ...۲ ۳. استخراج ویژگی: یادگیری انتقالی به ما امکان می دهد از مدل از پیش آموزش دیده به عنوان استخراج کننده ویژگی استفاده کنیم. ما می توانیم لایه های نهایی مدل از پیش آموزش دیده را حذف کنیم و از لايه هاى میانی برای استخراج ویژگی های معنی دار از دده های ورودی استفاده کنیم. این ویژگی‌ها سپس می‌توانند به طبقه‌بندی کننده یا مدل جدیدی که به‌طور خاص برای وظیفه هدف طراحی شده است. وارد شوند. این رویکرد به وه زمانی مفید است که وظیفه جدید .داده های برچسب گذاری شده محدودی داشته باشد. زیرا از نیاز به آموزش یک مدل عمیق از ابتدا جلوگیری می کند. ۴ کاهش زمان آموزش و منبع مورد نياز: با استفاده از مدل هاى از بيش آموزش ديده. يادكيرى انتقللى زمان آموزش و منلبع محاسباتی مورد نیا رای آموزش يك مدل يادكيرى عميق را کاهش می دهد. آموزش مدل های عمیق از ابتدا اغلب به مقدار زیادی داده برچسب دار و منابع محاسباتی گسترده نياز دارد. با اين حال با یادگیری انتقالی. می‌تونیم با وزن‌های از پیش آموزش‌دیده شروع کنیم و با استفاده از مجموعه داده‌های برچسب‌گذاری‌شده کوچک‌تر مدل را روی وظیفه هدف تنظیم کنیم و در زمان و منابع صرفه‌جویی کنیم.

صفحه 68:
۵ ادامه ...۲ ۵. بهبود عملکرد: یادگیری انتقالی اغلب منجر به بهبود عملکرد در وظیفه هدف می شود. با استفاده از یک مدل از پیش آموزش دیده به عنوان نقطه شروع. مدل از قبل دارای مقداردهی اولیه خویی است و ویژگی های عمومی را از مجموعه داده های پیش از آموزش ,آموخته است. تنظیم دقيق مدل در وظیفه هدف به آن کمک می کند تا ويژگي های آموخته شده خود رابا ویژگی ها و الزامات خاص وظيفه جديد تطبيق دهد: که منجربه بهبود عملکرد در مقايسه با آموزش از ابتدا مى شود. .به طور كلى. يادكيرى انتقللى يك تكنيك قدرتمند در يادكيرى عميق است كه ما را قادر مىسازد از دانش و ویژگی‌های آموخته‌شده از پیش‌آموزش در مجموعههاى داده در مقياس بزرك استفاده كنيم. اين كار به بهبود عملكرد مدل كاهش زمان آموزش و منابع مورد نياز. و تسهيل تعميم به وظيفه ها يا حوزه هاى جديد كمك مى كند.

صفحه 69:
۶ مفهوم جاسازی کلممدهءوصن00عطصه ۷۵۳) را توضیح دهید. جاسازی کلمات تکنیکی در پردازش زبان طبیعی (۱!]0) است که کلمات رابه صورت بردارهای متراکم و کم بعدی در یک فضای برداری پیوسته نشان می دهد. مفهومی که در پس جاسازی کلمات وجود دارد. به دست آوردن روابط معنایی و نحوی بین کلمات بر اساس ویژگی های توزیعی آنها در یک پیکره معین است. با نمایش کلمات به عنوان بردرءمی‌توئیم عملیات ریاضی روی آنهاانجام دهیم. شیاهت آنها را اندزهگیری کنیم و از آنها به عنوان ویزگی در کارهای مختلف "]لا| استفاده کنیم. در اینجا یک نمای کلی از نحوه کار جاسازی کلمات آورده شده است: ‎.١‏ فرضيه توزيع: ‏- شالوده جاسازى كلمات . فرضيه توزيعى است كه بيان مى كند كلماتى كه در بافت هاى مشابه ظاهر مى شوند. معانى مشابهى دارند. ‏- ایده این است که ممنای یک کلمه رامی توان ازمتنی که در آن خر يك ييكره ظاهر مى شود استنياظ كرف ‏۲فرآیند آموزش: ‏- جاسازی کلمات معمولاً از طریق روش‌های یادگیری بدون نظارت. مانند شبکه‌های عصبی, که مقادیر زیادی از داده‌های متنی را تجزیه و تحلیل م ىكنند. یاد می‌گیرند. مر ‎ ‏در طول آموزش, یک مدل به بافت کلمات در يك مجموعه داده شده نكاه مى كند و ياد مى كيرد که کلمات اطراف یا کلمات متن را پیش بینی کند. ‏- مدل پارامترهای داخلی خود را تنظیم می کند (وزن های جاسازی شده) تا احتمال پیش بینی دقیق کلمات متن را به حداکثر برساند.

صفحه 70:
۶ ادامه... . یی در مرا - خروجی فرآیند آموزش مجموعه ای از جاسازی های کلمه است که در آن هر کلمه به صورت یک بردار متراکم در یک فضای برداری پیوسته داده مي شود می شو - اين بردارها روط معنایی و نحوی بین كلمات را بر اساس كاربرد متنى آنها در مجموعه آموزشی نشان می دهد. - کلماتی که در زمینه‌های مشابه ظاهر می‌شوند. تمایل دارند ویژگی های برداری مشایهی داشته باشند. که مدل را قادر می‌سازد تا شباهت‌ها و تناسبات بین کلمات را به تصوي ۴ شباهت و فاصله: - جاسازی کلمه به ما امکان می دهد شباهت پین کلمات را با استفاده از عملیات برداری مانند شباهت کسینوس یا فاصله اقلیدسی اندازه گیری کنیم. - کلماتی با معانی یا کاربردهای مشایه دارای بردارهایی نزدیک به هم در فضای برداری خواهند بود که در نتیجه امتیاز تشابه بالایی به دست می آید. - براى مثال. بردارهای "شاه" از بردار "سيب" خواهدد بود

صفحه 71:
۶ ادامه... . ۵. کاربرد در وظیفه های ‎٩/18‏ - جاسازی های کلمه همه کاره هستند و به طور گسترده در کارهای مختلف ۱1۳ از جمله تجزیه و تحلیل احساسات ترجمه ماشیتی. شناسابی موجودیت نام دار و طبقه بندی اسناد استفاده می شود. - در لين كارهاء جاسازى کلمات به عنوانویژگبی های ورودی به مدل های یادگیری ماشین یا بهعنوان ویژگی ای برای کارهای پایین دستی عمل می کشد. - جاسازی های کلمه روابط معنایی را درک می کنند. به مدل ها اجازه می دهند تا بهتر تعمیم دهند. کلمات خارج از واژگان را مدیریت کنند. و موضوع و معنای کلمات را درك كتند. الگوریتم های رلیچ جاسازی های کلمه عبارتند از 310/6) ,۷۷۵۲/2۱/66 (بردارهای جهلنی برای ویژگی کلمه). و 35116. لین الگوریتم‌ها بر روی مجموعه‌های بزرگ آموزش داده شده‌لند و جاسازی‌های کلمات از پیش آموزش‌دیده‌شده‌ای را رلئه می‌کنند که می‌توانند مستقیمً با به خیبی برای وظیفه های خاص مورد استفادهقرار كيرند. جاسازی‌های کلمه با امکان دادن به مدل‌ها برای درک اطلاعات معنایی غنی در مورد کلمات و روابط آنها انقلابی در "-]ل] ایجاد کرده است. آنها ویژگی قدرتمندی از داده های متنی را اراکه می دهند و درک پهتر تفسیر و دستکاری زبان طبیعی را تسهیل می کننده

صفحه 72:
۷ چند مدل از پیش آموزش دیده محبوب برای وظایف پردازش زبان طبیعی نام ببرید. جندین مدل از پیش آموزش دیده محبوب برای وظليف يردازش زبان طبيمى (۱۷10) وجود دار لین مدل‌ها از قمل بر روی مجموعه‌های بزرگ آموزش دلده شدماند وتا هاى ون قذي رايد تسوير دي تشنت ويه آرزها أجاره هته ‎ease ks ot‏ رن که ووگی رای کرمی خی فلا تیم شوند. در اینجا چند مدل از پیش آموزش دیده پرکاربرد آورده شده است: Word2Vec.\ ‎Word2Vec‏ یک الگوریتم یادگیری بدون نظارت ااست که جاسازی کلمات را از مجموعه های متتی بزرگ یاد می گیرد ‏های برداری متراکمی وا برای کلمات اراته می دهد و روابط معنایی را بر اساسی استفاده زمینه ای آنها ياد مى كيرد ‎ ‏مدل های ۷۷۵۲۵2۷/66 از برای کارهای مختلف .۱1 استفاده شوند ‏آموزش دیده:مانتد مدل های آموزش داده شده در مجموعه داده های ۱161۷5 ۳00916), در دسترس هستند و می توانند ‎ ‎60۷6 ۲ ‎Ss GloVe (Global Vectors for Word Representation)‏ £29 از الكوريتم هاى محبوب يادكيرى بدون نظارت براى جاسازى كلمات ‏است. ‏مدل های 50۷6 بردارهای کلمه را با فاکتورسازی ماتریس همزمانی کلمات یاد مى كيرند. ‏۱ ‏برای وظیفه های 1۴| استفاده می‌شوند. ‎

صفحه 73:
۷ ادامه..؟ ‎FastText +‏ - )۳35۲۲6 الگوریتم ۷۷0۲02۷/6توسعه یافته است که اطلاعات زیر کلمه را نیز در نظر می گیرد. - کلمات را به عنوان مجموع کاراکتر 0-0۳310] نشان سی دهد. و آن را قادر می سازد تا اطلاعات صرفی را دریافت کند و کلمات خارج از واژگان را مدیریت کند. - مدل‌های 85176۴ از پیش آموزش‌دیده‌شده. مانتد مدل‌هایی که در ویکی‌پدیاء ‎Crawl‏ 20۱۲۵۲۱ یا مجموعه داده‌های خاص زبان خاص آموزش دیده‌اند. برای کارهای مختلف در دسترس هستند. ‎BERT (Bidirectional Encoder Representations from Transformers) +‏ ‎921٩۲ -‏ یک مدل مبتنی بر ترانسفورمر است که مفهوم مدل سازی زان ماسک و پیش بینی جمله بعدی را معرفی کرد. ‎ ‏ی وهی ‎ee‏ ی و - 861۲ در کارهای مختلف !| به عملکردی پیشرفته دست یافته است و به طور گسترده مورد استفاده قرار گرفته است. ‏- مدل هاى 8151 از قبل آموزش ديده. از جمله مدل هاى بايه و مدل های بزرگ در دسترس هستند و می توانند برای وظیفه های خاص به خوبی ‎el‏

صفحه 74:
۷ ادامه..؟ GPT (Generative Pre-trained Transformer) © ‎GPT -‏ مدل زبان مبتنی بر ترانسفورمر است که برای پیش بینی کلمه بعدی در یک دنباله. آموزش داده شده است. ‏-اطلاعات متي را می گرد وحتی منسجم و حرتیط با موضوع تولید می کنده ‏- مدل‌های 3۳۲ ‎GPT-3 ,GPT-2 ants‏ در تولید متن‌های انسان‌ماتند تأثيركذار بودهاند و برای کارهای مختلف .الا به‌خویی تنظیم شده‌ند. ‎ELMO (Embeddings from Language Models) ۶‏ ‏- 1-۷0 یک مدل نمایشی کلمه عمیق متنی است که بر اساس کل متن جمله. جاسازی های کلمه را ایجاد می کند. ‏- معاني لفات حساس درستنی که فلاهر شدهه را دریاقت می کند. ‏- مدل های 140.] از قبل آموزش دیده موجود است و در کارهای مختلف "لا استفاده شده است.

صفحه 75:
۷ ادامه..؟ . مدل هاى مبتنى بر ترانسفورمر(به عنوان مثال. 82151 الل .508118 ۲5۰) - چندین مدل مبتنى بر ترانسفورمر وجود دارد كه بر روى مجموعه داده هاى بزرك مقياس از قبل آموزش ديده لند و به نیج بيشرفته اى در كارهاى ‎ge cus NLP‏ يايند ‎ALBERT , 15. ROBERTa -‏ نمونه هلیی از مدل های مبتنی بر ترانسفورمر هستند که به طور گسترده مورد استفاده قرار گرفته لند و می توان ‏آنها را برای وظیفه های خاص تنظیم کرد. ‏این مدل های از پیش آموزش دیده با ارائه ویژگی قدرتمندی از زبان. زمینه "!| را به طور قابل توجهی ارتقا داده اند. آنها اطلاعات متنی؛ روابط معنایی و ساختارهای نحوی را جمع آوری می کنند و مدل ها را قادر می سازند تا در طیف وسیعی از کارهای ۳.أل] به عملکرد بالایی دست يابند. بسیاری از این مدل‌های از پیش آموزش‌دیده‌شده در کتابخانه‌های معروف یادگیری عمیسق مانند کتابخانه ۴۵6۵5 ‎Hugging‏ ‏5 موجود هستند. که ادغام آسان آن‌ها در پایپ لاين و برنامه‌های "الا را تسهیل می‌کند.

صفحه 76:
۸ مفهوم توجه در یادگیری عمیق چیست؟ مفهوم توجه در يادكيرى عميق به مكانيزمى اشاره دارد كه به يك مدل اجازه مى دهد در حین انجام یک کار بر روی بخش های خاصی از داده های ورودی تمرکز کند.مکانیزمهای توجه به طور گسترده در حوزه‌های مختلف. از جمله پردازش زیان طبیمی (۳» بینایی کاپیوتری و مدل‌سازی دنبلله به دنبلله استفاده شده‌اند. ايده کلیدی پشت توجه, تخصیص وزن ها یا اهمیت های مختلف به بخش های مختلف ورودی است که مدل را قادر می سازد تا به طور انتخابی به مرتبط ترین اطلاعات توجه کند. در اینجا مروری بر نحوه عملکرد مکانیزم توجه می کنیم 1ازمينه و برس و و - مکانیزم های توجه شامل یک موضوع و برس و جوهليى است. موضوع به داده هاى ورودی یا مجموعه ای از ویژگی ها اشاره دارد. در حللى كه يرس و جوها اطلاعاتى را نشان مى دهند كه مدل به آن علاقه دارد يا مى خواهد روى آن تمركز کند. ۲ وزن توجه: - مکانیزم‌های توجه, وزن‌های توجه را محاسبه می‌کنند که نشان‌دهنده ارتباط یا اهمیت بخش‌های مختلف موضوع به پرسش‌ها است. - ين وزن ها معمولا بر اسابس معيار شباعت بين يرس و جوها و عناصر مخظف موضوع مجلسبة مى شوند.

صفحه 77:
۸ دامه..؟ وزنی: - وزن توجه برای ایجاد ترکیب وزنی از عناصر موضوع استفاده می شود که به بخش های مرتبط تر وزن بیشتری می بخشد. - ترکیب وزنی نشان دهنده نمایش حضوری یا متمرکز از موضوع است که بر مرتبط ترین اطلاعات تأکید دارد ۴ انواع مکانیزم توجه: انيزم هاى توجه متفاوتی را می توان بر اساس وظیفه و معماری خاص استفاده کرد. - یکی از انواع محبوب .خود توجه یا درون توجه نام دارده که در آن پرس و جوهاء کلیدها و مقادیر از یک دنباله ورودی مشتق می شوند و به مدل اجازه می دهد تا به بخش های مختلف ورودی در مراحل زمانی مختلف توجه کند. - نوع دیگری, توجه چند سر نامیده مى شود که شامل چندین عملیات توجه موازی است و مدل را قادر می سازد تا به جنبه ها يا ویژگی های مختلف ورودی به طور همزمان توجه کند.

صفحه 78:
۸ دامه..؟ مزایای توجه در یادگیری عمیق عبارتد از ۱. تمرکز انتخلیی: مکانیزم‌های توجه به مدل‌ها لین امکان را می‌دهند که به طور انتخابی بر مرتبط‌ترین اطلاعات تمرکز کنند و در عین حال بخش‌های نامربوط يا نويز ورودى را ناديده بكيرند يا كم اهميت جلوه دهند. اين کار می تواند منجر به عملکرد بهتر و پردازش کارآمدتر شود. ۲ تفسیرپذیری:مکانیزم‌های توجه با برجسته کردن بخش‌هایی از ورودی که بیشترین سهم را در تصمیمگیری یا خروجی مدل دارند.قابلیت تفسیر را فراهم می‌کنند. اي کار به درک و توضیح فرآیند استدلال و تصمیم گیری مدل کمک می کند. ۲مدیریت دنباله‌های طولانی: در کارهایی که شامل دنباله‌های طولائی است. مکانیزم‌های توجه به مدل کمک می‌کنند تا وابستگی‌های دوربرد را با توجه به عناصر موضوع مرتبطء حتی اگر در دنباله از هم دور باشند. به‌طور موثری جذب کند. مكانيزم هاى توجه با موفقیت در معماری‌های یادگیری عمیق مختلف. مانند مدل‌های ترانسفورمر در 8-الاأ. مدلهاى شرح تصوير در بيثليى كامبيوتر. و مدل‌های دنبلله به دنبلله در ترجمه ماشینی به کار گرفته شده‌اند. آنها عملکرد و قابلیت تفسیر لین مدل ها را بسیار بهیود بخشیده لند و آنها را قادر می سازند تا کارهای پیچیده را انجام دهند و اطلاعات مهم را از ورودی های در مقیاس بزرگ دریافت کنند.

صفحه 79:
مکانیزم توجه چگونه به بهبود عملکرد مدل های دنباله به دنباله کمک می کند؟ مکانیزم توجه نقش مهمی در بهبود عملکرد مدل‌های دنبلله به دنبلله, به ویّه در کارهایی مانند ترجمه ماشینی, خلاصه‌سازی متن و تشخیص گفتار دارد. در اینجا نحوه کمک به افزایش عملکرد مدل‌های دنباله به دناله آمده است: ۱ مدیریت ورودی ها و خروجی های با طول متفیر - هدف مدل‌های دنباله به دنباله تبدیل یک دنباله ورودی به یک دنباله خروجی با طول‌های متفیر است. - مکانیزم توجه به مدل اجازه می دهد تا در حین تولید دنباله خروجی مربوطه. روی قسمت های مختلف دنباله ورودی تمرکز کند. - اين مكانيزم مدل را قادر مى سازد تا ورودی ها و خروجی های با طول متفیر را به طور موثرتری مدیریت کند ۲درک وابستگی های دوربرد: انيزم هاى توجه به مدل كمك مى كند تا وابستكى ها دوربرد بين دنباله هاى ورودى و خروجى را درک کند. با توجه به بخش‌های مربوطه از دنبله ورودى در هر مرحله از فآیند رمزگشایی, مدل می‌تولد اطلاعات را از موقعیت‌های دور در نظر گرفته و ترکیب کند. - اين مکانیزم به تولید دنباله خروجی دقیق تر و مرتبط تر کمک می کند.

صفحه 80:
‎٩‏ ادامه...؟ ‏۳ کاهش فشرده سازی اطلاعات: ‎ ‏- مدل‌های سنتی دنباله به دنباله بر یک بردار با طول ثابت (حالت پنهان رمزگذار) برای نشان دادن کل دنباله ورودی تکیه می‌کنند. ‏- مکالیزم توجه به مدل اجازه می دهد تا به اطلاعات از تمام موقعیت های دنباله ورودی دسترسی پیدا کند و آنها را ترکیب کند و نیاز به فشرده سازی بیش از حد اطلاعات را کاهش دهد. ‏- به جاى تكيه صرفا بر يك ويزكى با طول ثابت مدل مى تواند به طور نتخابی به بخش های مختلف دنباله ورودی بر اساس ارتباط آنها با مرحله رمزگشایی فعلی توچه ‎BS‏ ‏۴. تمرکز بر موضوع مرتبط: -مکالزم های توجه به مدل کمک می کند تا بر مرتبط ترین قسمت های دنباله ورودى براى توليد هر عنصر از دنباله خروجى تمركز كند. ‏با اختصاص وزن‌های توجهبالاتریه موقعیت‌های ورودی مرتبط, مدل می‌تواند به طور موثراطلاعات و زمینه لازمبرای تولید عنصر خروجی بعدی را استخراج کند. ‏- این نموکز اننخابی» کلی دنباله های تولید شده را بهبود می بخشد و توانایی مدل را برای درک جزئیات دقیق افزایش می دهد. ‎

صفحه 81:
‎٩‏ ادامه...؟ ‏۵ رسیدگی به هام و تولید خارج از دستور: - در کارهامی مانند ترجمه ماشیتی, چندین ترجمه معتبر برای یک جمله ورودی ناده شده وجود دارد. ‏- مکانیزم توجه به مدل اجازه می دهد تا بخش های مختلف دنبلله ورودی را در نظر گرفته و وزن کند و به آن کمک می کند تا ابهامات را مدیریت ‏کند و در طول فرآیندرمزگشایی تصمیمات آگاهان بگرد ‏- همچنین مدل را قادر می سازد تا دنبلله خروجی رابه صورت غیر خطی و خارج از نظم تولید کند و کلمات تولید شده رابا مرتبط ترین قسمت های ‏ورودی تراز کند. ‏به طور کلی مکانیزم‌های توجه در مدل‌های دنله به دنله به طور قابل توجهى توائليى آنها را براى رسيدكى .به ورودی‌ها و خروجی‌های با طول متفیر. درک وابستگی‌های دوربرد,تمرکز بر موضوع مرتبط. رسیدگی بهابهام. و تولیددناله‌های با کیفیت بل هبودمی‌بخشد. لین پیشرفت‌ها منجربه عملکرد ‏بهتر, بهبود دقت ترجمه» و دنباله‌های خروجی روان‌تر و مناسب‌تر می‌شوند.

صفحه 82:
۰ مفهوم نرمال سازی دسته ای چیست؟ نرمال سازی دسته ای تکنیکی است که در شبکه های عصبی عمیق برای بهبود فرآیند آموزش و عملکرد کلی مدل استفاده می شود. این عمل به موضوع اثر شيفت توزيع داخلى مى بردازد. كه به تغيير در توزيع فعال سازى شبكه اشاره دارد زيرا بارامترهاى لايه هاى قبلى در طول آموزش به روز مى شوند. مفهوم نرمالسازى دستهاى شامل نرمال سازى ورودىهاى هر لايه با تنظيم و مقياسبندى فعالسازىها با استفاده از آمار محاسيدشده بر روى يك دسته كوجك از نموندهاى آموزشى است. ترمال سازى دسته اى جكونه كار مى كند: ۱.آمار دسته های کوچک: - در طول آموزش, نرمال سازی دسته ای ميانكين و واريانس فعال سازی ها را در یک مجموعه کوچک از نمونه های آموزشی محاسبه می کند - برای هر فعال سازی میانگین و واریانس در ابعاد کوچک دسته ای محاسبه می شود. ۲ نرمال سازی: - نرمال سازى دسته اى با كم كردن ميانكين و تقسيم بر انحراف استاندارد. فعال سازی ها را نرمال می کند - اين عمل توزيع فعال سازى ها را حول صفر متمركز مى كند و آنها را برى داشتن واريانس واحد مقياس بندى مى كند.

صفحه 83:
‎Fe‏ ادامه..؟ ‏۳ پارامترهای قبل یادگیری: ‏- نرمال سازی دسته ای دو بارامتر قابل يادكيرى. اما (6۷ و بتا (3) را برای هر فعال سازی معرفی می کند ‎ ‏- اين يارامترها به مدل اين امكان را مى دهند كه مقياس بندى و جابجايى بهينه فعال سازى هاى نرمال شده - مقادير كاما و بتا در طول آموزش از طریق پس انتشارآموخته می شود. ؟: كاريرد در طول آموزش و استنتاج: ‏- در طول آموزش: نرمال سازى دسته اى بر روى دسته هاى كوجك داده عمل مى كند و فعال سازى ها را بر اساس آمار محاسبه شده در هر دسته ‏عوجت نرمال سى كنقد ‎ ‏- در طول استنياط يا ارزيابى: از آمار ميائكين و واريانس آموخته شده يراى نرمال سازى فعال سازى ها استفاده مى شود.

صفحه 84:
‎Fe‏ ادامه..؟ ‏مزایای نرمال سازی دسته ای عبارتند از ‏| بهبود سرعت و ثبات آموزش: ‏- با نرمال سازى فعال سازى هاء نرمال سازى دسته اى. اثر شیفت توزيع داخلی را کاهش می دهد که می توند روند آموزش را تثبیت و سرعت بخشد. - این امکان را به شبکه می دهد که با ارائهتوزیع منسجم تری از ورودی ها در هر لایه. سریعتر همگرا شود. ‏۲ کاهش حساسیت ‎dy‏ مقداردهی اولیه: ‏- نرمال سازی دسته ای وابستگی شبکه به مقداردهی اولیه پرمترها را کاهش می دهد. ‏ها را کاهش می دهد و به شبکه اجازه می دهد تا حساسیت کمتری نسبت به انتخاب های اولیه وزن داشته باشد. ‎ ‏- ترمال سازى دسته اى با ضافه کردن نویز به شبکه از طریق آمار دسته ای کوچک, یک اثر تنظیم جزئی ایجاد می کند. این عمل می تواند بیش برازش را کاهش دهد و توانایی تعمیم مدل را بهبود بخشد. نرمال سازی دسته ای به یک جزء استاندرد در بسیاری از معماری های یادگیری عمیق تبدیل شده است. از جمله شبکه های غصبی کانولوشن (6۱۷۱1» شبکه های ‏عصبی بازگشتی (30181» , شبکه های تمام متصل. این نرمال سازی, پیشرفت های قلبل توجهی را در سرعت آموزش, ثبات و تعمیم نشان دادم است ون رابه یک تکنیک ضروری در شیوه های یادگیری عمیق مدرن تبدیل کرده است.

صفحه 85:
۱ نرمال سازی دسته ای چگونه به آموزش مدل های یادگیری عمیق کمک می کند؟ تومال سازی دسته ای یه چندین روش بهآموزش مدل های یدگیری عمیق کمک می کند ‎١‏ آثر شيغت توزيع داخلى را كاهش مى دعد: ‏- اثر شيفت توزيع داخلى به تغيير در توزيع فعال سازى شبكه اشاره دارد زيرا بارامترهاى لايه هاى قبلى در طول آموزش به روز مى شوند. ‏- ترمال سازی دسته ای لین مشکل رابانرمال سازی فعال سازی ها برطرف می کند و اطمینان حاصل می کند که میانگین و وارانس واحد آنها صفر است ‏- اين نرمال سازى تاثير تغيير توزيع ها را كاهش مى دهد و به تثبيت روند آموزش كمك مى كند. ‏'. نرخ هاى يادكيرى بالاتر را تسهيل مى كند: ‏- با نرمال سازی دسته ای, فعال سازى ها رمال شده و حول محور صفر با واريانس واحد متمركز مى شوند. ‏- اين نرمال سازى جشم انداز يهينه سازى را مطلوب تر مى كند و امكان استفاده از نرخ يادكيرى بالاتر را فراهم مى كند. ‏- نرخ يادكيرى بالائر. همكرابى سريعتر و كاوش بهتر در فضای پارامتری مدل را امكان يذير مى كند.

صفحه 86:
۱ دامه...؟ ۲. وابستگی به وزن اولیه را کاهش می دهد: - نرمال سازی دسته ای وابستگی شبکه به مقداردهی اولیهپارامترها را کاهش مى دهد. - به کاهش مشکل محو یا انقجار گرادیان هایی که می تواند در طول آموزش رخ دهد کمک می ‎AS‏ - با نومال سازی دسته ای گرادیان ها بهتر کنتول می شوند. که باعث می شود مدل نسبت به انتخاب های اولیه وزن کمتر حساس باشد. یه منطم سازی کمک می کنده - ترمال سازی دسته ای یک اثر منظم سازی جزئی به شبکه اضافه می کند. - از طریق آمار دسته ای کوچک که برای نرمال سازی استفاده می شود. نوبز را به شبکه معرفی می کند. - این نویز به کاهش بیش برازش و بهسود قابلیت تعمیم مدل کمک می کند.

صفحه 87:
۱ دامه...؟ ف جسم اتداز بهيئة سازى را هموار فى كنت - نرمال سازی دسته ای. چشم انداز بهينه سازى را در طول آموزش هموارتر و سازكارتر مى كند. - با كاهش اثر شيفت توزیع داخلی , تغييرات كراديان در لايهها را كاهش مىدهد كه منجر به قرآيند بهينهسازى بايدارتر مى شود. - اين اثر هموارسازى باعث مى شود كه مدل سريعتر و قابل اطمينان تر همكرا شود. عد عدم تغيير شبكه را ارائه مى دهد: - نرمال سازى دسته اى .درجه اى از تغييريذيرى را نسبت به تغييرات كوجك در توزيع ورودى فراهم مى كند. -اين تغيير نابذيرئ به بهبود تعميع مدل کمک می کند و آن را در برابر تغييرات در داده هاى ورودى عقاوم تر مى كند. به طور کلی, نرمال سازی دسته اى به طور قلبل توجهى آموزش مدل هاى يادكيرى عميق رابا كاهش لثر شيفت توزيع داخلى ‎٠‏ تثبيت فرآيند آموزش». تسهیل استفاده از نرخ هاى يادكيرى بالاتر. كاهش وابستكى به مقداراولیه وزن, ارلئه منظم سازى. و اطمينان از عدم تغيير شبكه. يهبود مى بخشد. اين عمل به يك تكنيك اساسى در معمارى هاى مدرن يادكيرى عميق تبديل شده است و نقش مهمى در دستيابى به همكرايى سريع تر تعمیم بهتر و بهبود عملکرد کلی ایفا می کند.

صفحه 88:
۳۲ مفهوم بیش برازش <9 6۲16110 0۷)در یادگیری عمیق را توضیح دهید. بیش برازش یک چللش رلیج در یادگیری عمیق وبه طورکلی یادگیری ماشین است. زملنى اتفاق مىافتد كه يك مدل بر روى دادههاى آموزشى عملكرد فوقالعادداى داشته باشد اما توت به خیبی يه داخمهاى جديد ووديده تخده تعميم يايد به مبارت ديكر مدل بيش از جد خاص مى شود وبه جلى يلدكيرى الكوهلى على تكه م تواند روى داذة هاى ديده نشده اعمال شود. تمونههای آموزشی را به خاطر مى سبارد. اين بديده به نام بيش برازش(01/©]166109) شناخته مى شود در اينجا ويزكى ها و دلايل كليدى بيش برازش آورده شده است: ‎.١‏ دقت آموزش بالاه دقت آزمون پایب ‎ ‏یک مدل بيش برازش. دقت آموزش به طور معمول بالااست. كه نشان مى دهد كه مدل ياد گرفته است که داده های آموزشی را به خوبی برازش دهد. ‎ ‏با لین حال. هنگامی که بر روی داده های جدید (آزمون یا مجموعه اعتبارسنجی) ارزیابی می شود. عملکرد مدل به طور قلبل توجهی کاهش می یلبد و در نتیجه دقت ‎ ‏آزمون يابين |. :مدل بيش أز حد بيجيده: بيش برازش اغلب زماتى اتفاق مى افتد كه مدل نسبت به داده هاى آموزشى موجود بیش از حد پیچیده باشد. ‏مدل هاى يادكيرى عميق با تعداد يارامترهاى زياد. مانند تعداد لایه ها يا گره های زیده بیشتر مستعد بیش برازش هستند.

صفحه 89:
۲ ادامد... . ۳ داده های آموزشی ناکافی: - وقتی مجموعه داده آموزشی کوچک یا فاقد تنوع باشد. احتمال بیشتری وجود دارد که بیش برازش ‎SUSI‏ بیفتد. - داده های محدود ممکن است به اندازه کافی الگوها و تغییرات اساسی در جمعیت هدف را نشان ندهند. و مدل رابه تفسیر بیش از حد نویز یا ویژگی های نامریوط سوق دهد. ؟ ‎ee‏ ری رت - اگر مجموعه داده آموزشی حاوی نمونه های نوبز یا پرت باشد. يك مدل بيش برازش ممكن است ياد بكيرد که بیش از حد روی لین نمونه های خاص تمركز كند. - مدل نسبت به نمونه هاى واحد. بيش از حد حساس مى شود و نمى تواند به خوبى به نمونه هاى مشابه اما دب ۵. عدم منظم سازی - تکنیک های منظم سازی ناکافی یا تنظیم هايبربارامتر ناكافى مى تواند به بيش برازش كمك كند. - روشهاى منظمسازى مانند حذف تصادفى. كاهش وزنء يا توقف زودهنكام با اعمال محدوديتهايى بر ظرفيت مدل و كنترل بيجيدكى لن: به ‎ee ee‏

صفحه 90:
۲ ادامه. براى رسيدكى به بيش برازش و بهبود تعميم مدالء اسرنزیهای ویر را می تون به کر کرت الفزايش داده على أموزشى: - به دست أوردن دلددهاى أموزشى متنوعتر و معرفتر مى توئد به مدل كمك كند تا طيف وسبع ترى از الكوها ا جذب كند و بیش برزش را کاهش دهد تیک های منم سازی: - تكنيك هابى مانند حذف تصادفى. تنظيم 11 با 12 و ده ‎il go‏ یجدمحدودیت ها و شاه کردن نز هرید یلیر باهش بیش بازش کمک کند + ساده سای مدل؛ - كلهش بيجيدكى عدل: مافند كلمش تعدا يدها يا كرمعء متو به مبارزه با بيش رارش كمكك كند. - مدل هاى ساده تر كمتر تويزيا جزئيات تامربوط را يه خاطر مى سبارند و بهتر مى تونند تعميم دهند. *امتبازستجى متا - لستفاده از تكنيك على اعتارسنجى متقابل: مامت امتبارستجى متقيل 001-. امكان ارزيلى قوى تر از عملكرد مدل را فراهم مى كند و به تشخیس بیش برزش کمک می ند ال توقف زودهدكام: انظارت بر عملكرد مدل بر روى يك مجموعه امتبار سنجى در طول أموش و توقف فرايند أموزش هدكامى كه عملكرد شروع به بدتر شدن مى كند مى تواند ا( بيش براش جلوكيرى كند بیش برازش جالش رایع در بدگری عمیق استه ما ستراز‌هاي ناسب مان اه یی لستفادة از تكنيكنعاى منظلم سازى: سافتساز مذل. و استفادة از روش هاي ارزيفي متاسنيد ميتوان آن را كاسكل ‎seat JES‏ ‎ss hale iabicataign gaa ado stie‏

صفحه 91:
۳ چند تکنیک برای رفع بیش برازش در مدل های یادگیری عمیق را نام ببرید. بیش برازش یک چالش رایج در مدل‌های یادگیری عمیق است. اما چندین تکنیک می‌توند به رفع و کاهش لّن کمک کند. در اینجا چند تکنیک متداول برای مبازه با بیش برازش استفاده می شود: افزایش داده های آموزشی: - یکی از رویکردهای موثر برای کاهش بیش برازش ۰ جمع آوری داده های آموزشی بیشتر در صورت امکان - مجموعه داد‌های بزرگتر و متنوعتر. طيف وسيعترى از مثالها را در اختيار مدل قرارمی‌دهد و به تعميم بهتر دادههاى ديده نشده كمك مىكند. ۲ داده افزایی - داده افزایی شامل گسترش مصنوعی مجموعه داده های آموزشی با اعمال تفییرات یا اصلاحات مختلف در داده های موجود است. - برای منال, در کارهای طبقه‌بندی تصویره تکنیک‌هلیی مانند برش تصادفی. چر بيش برازش ود ش. بركرداندن يا اضافه كردن نويز مى تولند باعث ایجاد تنوع و كاهش

صفحه 92:
۳ ادامه.. . ۲ تکنیک های منظم سازی: - روش‌های منظم‌سازی .محدودیت‌هلیی را بر پارامترهای مدل تحمیل می‌کنند تا از پیچیده شدن بیش از حد لّن و بیش برازش داده‌های آموزشی جلوگیری کنند, - دو تکنیک منظم سازی متداول عبارتند از تنظيم .| و 12 - منظم سازی 1] (منظم‌سازی 3550 به تابع زیان متناسب یا مقدار مطلق پارامترها یک عبارت جریمه اضافه می کند. - منظم سازی 2] (منظم‌سازی 06| ) یک جریمه متناسب با مجذور پارامتیها اضافه می کند. - این تکنیک‌های منظم‌سازی مدل را تشویق می‌کند تا وزن‌های کوچک‌تر و متعادل‌تری داشته ياشد و از تکیه شدید آن به چند ویژگی جلوگیری می‌کند ۴ حذف تصادفی - حذف تصادفی یک تکنیک منظم سازی است که در آن نورون ها یا اتصالات به طور تصادفی انتخاب شده. نادیده گرفته می شهند یا در حین آموزش "قطع می شوند" - این عمل به جلوگیری از سازگاری مشترک نورون ها کمک می کند و شبکه را تشویق می کند تا ویژگی های قوی و قابل تعمیم بیشتری را بیاموزد. - حذف تصادفی را می توان بر روی لایه های مختلف مدل اعمال کرد و به طور موثیی بیش برازش را کاهش داد و تعمیم را بهبود بخشید.

صفحه 93:
۳ ادامه.. . ۵. توقف زودهنگام: - توقف زودهنگام شامل نظارت بر عملکرد مدل بر روی یک مجموعه اعتبر سنجی در طول آموزش و توفف فرآیند آموزش زمانی است که عملکرد وع به بذتر شدن می کند. - با يافتن نقطه بهينه اى كه مدل به اندازه كافى بدون بهينه سازى بيش از حد بر روى داده هاى آموزشى. از بيش برازش مدل جلوئيرى مى كند. ۶ ساده سازى مدل: - مدل هاى ييجيده با تعداد بارامترهاى زياد بيشتر مستعد بيش برازش هستند. - ساده سازی مدل با کاهش عمق, عرض يا بيجيدكى آن مى تواند به كاهش بيش برازش كمك كند. - اين عمل مى تواند شامل كاهش تعداد لايه هاء كاهش تعداد نورون ها در هر لايه يا حتى تغيير به معمارى مدل ساده تر باشد.

صفحه 94:
۳ ادامه.. . ۲ روش های جممی: - روشرهاى ‎et ee TS eee‏ كندد - با آموزش چندین مدل با مقدار دهی اولیه یا استفاده از معماری های مختلف روش های جمعی می توانند به کاهش بیش برازش و بهبود تعمیم کمک کنند. - روش‌های متداول جمعی شامل 800511۳9 ,88991۳9 و 51261109 است. ۸ اعتبارسنجی متقابل: - تکنیک‌های اعتبارسنجی متقابل» مانند اعتبارسنجی متقابل ۰-۴۵10 به ارزیایی قوی‌تر عملکرد مدل و تشخیص بیش برازش کمک می‌کنند. - با تقسیم داده ها به چند بخش و انجام چرخه های آموزشی و ارزیابی متعدد. اعتبارسنجی متقابل. تخمین قابل اعتمادتری از عملکرد تعمیم مدل ارائه می دهد. این تکنیک‌ها را می‌توان به‌صورت جداگانه یا ترکیبی برای رفع بیش‌برازش در مدل‌های یادگیری عمیق مورد استفاده قرار داد. انتخاب تكنيك ها به مسئله خاص, مجموعه داده ها و معماری مدل بستگی دارد و اغلب برای یافتن بهترین رویکرد نیاز به آزمایش و تنظیم دقیق دارد.

صفحه 95:
۴ مفهوم منظم سازی چیست؟ منظم سازی تکنیکی است که در یادگیری ماشینی, از جمله یادگیری عمیق. برای جلوگیری از بیش برازش و بهبود توایی تعمیم مدل ها استفاده می ‎og‏ هدف منظم سازی یافتن تعادلی بین برازش داده های آموزشی و اجتناب از پیچیدگی بیش از حد در مدل آموخته شده است. ‏مفهوم منظم سازی شامل اضافه کردن بیک اصطلاح منظم سازی بهتلبع زیان در طول فرآیند آموزش است. لین عبارت اضلفی؛ مدل را تشویق می‌کند.قا ویژگی‌های مطلوب خاصی مانند وزن‌های کوچک‌تر یا پرانندگی داشته باشد. که به جلوگیری از بیش برازش کمک می‌کند. ‏دو روش متداول منظم‌سازی عبارتند از: منظم‌سازی 11 (منظم‌سازی 12550) و منظم‌سازی ضا (منظم‌سازی 21096 : ۱. منظم‌سازی 1] (منظم‌سازی 12550) ‏- منظم‌سازی 1-1 یک عبارت جریمه به تبع زیان اضافه می کند که متناسب با قدر مطلق وزن های مدل است. ‏- این جریمه مدل را تشویق می کند که وزن های کم داشته باشد. به این معنی که بسیاری از وزن ها دقيقاً صفر می شوند. ‏- منظم‌سازی 1-] دارای خصیصه انتخاب ویژگی است. زیرامی توند به طور موثر ویژگی های نامربوط یا کمتر مهم را از مدل حذف کند. ‎

صفحه 96:
۴ ادامه..؟ ۲ منظم‌سازی | (متظم‌سازی 5۱096) - منظم‌سازی 2] یک عبارت جریمه به تبع زیان اضافه می کند که متناسب با مجذور وزن های مدل است. - این جریمه مدل را تشویق می‌کند به‌جای حذف کامل وزن‌های خاص. وزن‌های کوچک‌تری در تمام پارامترهاداشته باشد. - منظم‌سازی ]| منجر به کاهش وزن می شود زیرا وزن ها را به صفر نزدیک می کند اما به ندرت دقیقاً به صفر می رسد. اصطلاح منظم‌سازی معمولاً توسط یک هایپرپاامتربه ام پاامتر تنظیم یا قدرت تنظیم کنترل می شود. انتخاب این پارامتر میزان منظم سازی اعمال شده در طول آموزش را تعیین می کند. مقادیر الاترپارامتر منظم‌سازی منجر به منظم‌سازی قوی‌تر می‌شود که منجر به تأکید بیشتر بر سادگی و بيش برازش كمتر مىشود. اما به طور بالقوه برخى از ظرفيت مدل را قربانى مىكند تا به خوبى دادههاى آموزشى را تطبيق دهد. تكنيكهاى منظمسازى. مانند منظمسازى ‎L2 gL]‏ با افزودن محدودیت‌هایی به فرآیند یادگیری به جلوگیری از بیش برازش کمک می‌کنند. با منصرف کردن مدل از اتکای بیش از حد به ویژگی های واحد یا داشتن وزن های بیش از حد بزرگ, منظم سازی مدل را تشویق می کند تا الگوهای قوی تر و قابل تعمیم بیشتری بیاموزد. هدف ن ایجادتعادل بین درک الگوهای مرتبط از داده های آموزشی و جلوگیری از تفسیر بیش از حد نویز یا ویژگی های نامربوط است. مظم سازی یک تکنیک اناسی در بادگیری ماشینی است و اصول لن فرلتر از منظم سازی 1و مأانت. تکنیک‌های دیگر منظم‌سازی, مانتد حذف تصادفى: نرمالسازى دستهاى و توقف زودهنكام نيز به طور كسترده در يادكيرى عميق براى بهبود تعميم مدل و مبارزه با بیش‌برازش استفادهمی‌شوند

صفحه 97:
۵ تفاوت های بین منظم سازی 11و 2را توضیح دهید. منظم‌سازی 1و منظم‌سازی 12 دو تکنیک رایج برای منظم‌سازی در یادگیری ماشیتی از جمله یادگیری عمیق هستند. در حالی که هدف هر دو جلوكيرى از بيش برازش و يهبود تعميم مدل الست ويزكى ها و اثرات متمايزى بر مدل دارند. در ینجا تفاوت هاى اصلى بين منظم سازى 1-| و 12 وجود دارد: ‎.١‏ محاسبه جريمه: ‏- منظوسازى 1-| جريمه اى به تابع زيان اضافه مى كند كه متناسب با مجموع مقادیر مطلق وزن های مدل است. ‏- منظم‌سازی 2] جریمه ای اضافه می کند که متتاسب با مجموع مجذور وزن های مدل است. ‏۲ تأثیر بر وزن ها ‏- متظم‌سازی 1 با هدايت كردن بسيارى از وزن ها به طور دقيق به صفر. براكندكى را تشويق مى كند. ‏- منظمسازى 2] وزنهاى كوجكتر رأ در تمام پرمترها افزایش می‌دهد اما به ندرت آنها را دقیقاً صفر می‌کند. ‏۳ انتخاب ویژگی: ‏- منظم‌سازی 1.1 دارای خاصیت انتخاب ویژگی است. تمایل دارد ویژگی‌های نامربوط یا کم‌اهمیت را با صفر کردن وزن‌های متتاظر آنها حذف کند. ‏منظم‌سازی 12 انتخلبء مشخصی از ویاگی ها را انجام نمی دهد. زبرا همه ویزگی ها را حفط می کند اما بزرگی آنها وا کاهش می دهد.

صفحه 98:
. ‏ادامه...‎ FO ۴ فضای راه حل: - فضلى ره بحل منظم سارى 1-1 كم استه بسی تساه وزن على غير صقر كمترى دارد لين قضيه عى تولند هنگام برخوره با مجموحه داده های با اساد الا با بسیاری از ویژگی های نامربوط مفيد باشد. - فضای راه حل منظم سازی 2] متراکم است و وزن های غیر صفر به طور مساوی در بین ویژگی ها توزیع شده است. ۵ تفسیر پذیری: - منظم‌سازی 1-1 مىتولند به مدل قلبل تفسيرترى منجر شود. زيرا تمليل دارد زیرمجموعه‌ای از ویژگیها را انتخاب کند و وزن‌های غیر صفر را فقط به ‎lad ln Fey‏ اختصاص دهد - منظم‌سازی 12 ممکن است یک مدل کمتر قابل تفسیر ایجاد کند زیرا همه ویژگی ها را حفظ می کند اما بزرگی آنها را کاهش می دهد. مقاومت در برابر موارد يربته - منظم‌سازی 11 عموماً نسبت به داده‌های پرت مقاوم تر است. نقاط پرت به دلیل ماهیت پراکندگی منظم‌سازی 1] تأثیر کمتری بر مدل دارند. - منظم‌سازی ‎LZ‏ نسبت به موارد پرت مقاومت کمتری دارد. زیرا خطای مربع را به حداقل می رساند. که وزن بیشتری به خطاهای بزرگ می دهد.

صفحه 99:
. ‏ادامه...‎ FO گی: - منظم‌سازی 1 پراکندگی و انتخاب ویژگی را معرفی می‌کند و مدل را فشرده‌تر و بالقوه ساده‌تر می‌کند. - منظم‌سازی 2] وزن های کوچک را تشویق می کند اما هیچ وزن خاصی رابه طور کامل حذف نمی کند. تمليل دارد وزن ها رابه eo انتخاب بین منظم سازی 1و ابه مسئله خاص, مجموعه داده ها و ویژگی های مدل مورد نظر بستگی دارد. منظم‌سازی 11 اغلب زملنی ترجیح داده می شود که نیاز به انتخاب ویژگی با تفسیرپذیری وجود داشته باشده یا زملنی که با داده های با ابعاد بالا سروکار داریم, منظم‌سازی 2 عموماً رایچ‌تر است و می‌تواند راه‌حل‌های ملایم‌تر و پایدارتری ارائه دهد. در عمل, ترکیبی از هر دو منظم‌سازی 1] و | که به عنوان منظم سازی شبکه الاستیک شناخته می شود می تولند برای بهره مندی از مزایای هر دو تکنیک استفاده شود. منظم‌سازی شبکه الاستیک. خاصیت ایجاد پراکندگی منظم‌سازی 1 را با همواری و پایداری منظم‌سازی 2 ترکیب می‌کند.

صفحه 100:
۶ توقف زودهنگام در یادگیری عمیق چیست؟ توقف زودهنگام یک تکنیک منظم سازی است که معمولاً در یادگیری عمیق برای جلوگیری از بیش برازش و بهبود توائليى تعميم مدل ها استفاده مى شود. لين عمل شامل نظارت بر عملکرد مدل در طول آموزش و توقف فرآیند آموزش زمانی است که عملکرد در یک مجموعه اعتبار سنجى شروع به بدتر شدن مى كند. ایده اصلی پشت توقف زودهنگام این است که با ادامه آموزش مدلء در ابتدا عملکرد خود را هم در مجموعه آموزشی و هم در مجموعه اعتبار سنجی بهبود می بخشد. با این حال, در برخی موارده مدل ممکن است شروع به بیش برازش داده‌های آموزشی کند. که باعث کاهش عملکرد در مجموعه اعتبار سنجی می‌شود در حالی که همچنان در مجموعه آموزشی بهیود می‌یابد. هدف توقف زودهنگام یافتن نقطه بهینه در آموزش است که در آن مدل به اندازه کافی بدون بیش برازش یاد گرفته است. فرایند توقف زودهنگام معملاً شامل مراحل زیر است: ۱. تقسیم داده ها -مجموعه داده های موجود به سه مجموعه نقسیم می شوده مجموعه آموزشی مجموعه اعتبار ستجی و مجموعه آزمو: - مجموعه آموزشی برای آموزش مدل, مجموعه اعتبارستجی برای نظارت بر عملکرد در حين آموزش و مجموعه أزمون براى ارزيابى نهابى استفاده مى شود. ۲ نظارت بر عملکرد: - در طول فرآيند آموزش, عملکرد مدل به صورت دوره ای بر روی مجموعه اعتبارسنجی ارزیابی می شود - معیار عملکردی که برای نظارت استفاده می شود بسته به مسئله می تواند دقت. زیان یا هر معیار مناسب دیگری باشد.

صفحه 101:
۶ ادامه. ۳ معیار توفف: - یک معیار توقف بر اساس عملکرد در مجموعه اعتبار سنجی تعریف می شود - معیارهای رایج مورد استفاده شامل عدم بهبود عملکرد اعتبارسنجی برای تعداد معینی از دوره های متوالی یا افزایش از دست دادن اعتبار سنجی فراتر از یک آستانه خاص است. ۴ توقف زودهنگام: - با رعایت معیار توقف. فرآیند آموزش متوقف می شود و پارامترهای مدل در آن نقطه. مدل نهایی محسوب می شوند. - سپس مدل بر روی مجموعه آزمون ارزیابی می شود تا معیارهای عملکرد نهایی به دست آید. با توقف فرآیند آموزش در نقطه عملکرد بهینه در مجموعه اعتبارسنجی, توقف زودهنگام به جلوگیری از بیش برازش کمک می کند و تضمین می کند که مدل به خوبی به داده های دیده نشده تعمیم می یابد. هنگامی که عملکرد مدل در مجموعه اعتبارستجی شروع به کاهش می‌کند. از ادامه فرآیند آموزشی اجتناب می‌کند. که می‌تواند منجر به بهینه‌سازی بیش از حد در داده‌های آموزشی شود. توقف زودهنگام یک تکنیک منظم و مفتر استءبه ویزه زملتی که در دسترس بردن داده های برچسب گناری شده برای آموزش مجدود ابت لين عمل کمک می کند تا تعادل خوبی بین پیچیدگی و تعميم مدل بيدا كنيد. خطر بیش برازش و صرفه جوبی در متلبع محاسباتی رابا توقف زودهنگام فرآیند آموزش زمانی که آموزش بیشتر متجر به بهیود عملکره مجموعه اعتبار سنجی نمی شود کاهش مي دهد.

صفحه 102:
۷ توقف زودهنگام چگونه می تواند به جلوگیری از بیش برازش کمک کند؟ توقف زودهنگام یک تکنیک منظم سازی است که سی تولند به جلوگیری از بیش برازش در مدل های یادگیری عمیق کمک کند. لین امر با نظارت بر عملکرد مدل در یک مجموعه اعتبار سنجی در طول آموزش و توقف فرآیند آموزش هنگامی که عملکرد مجموعه اعتبار سنجی شروع به بدقر شدن می ‎sd‏ به دست می آورد. در اینجا نحوه کار توقف زودهنگام برای جلوگیری از بیش برازش توضیح داده شده است: ۱ تشخیص بیش برازش: ‏توقف زودهنگام با ردیابی عملکرد مدل در یک مجموعه اعتبار سنجی جداگانه به تشخیص بیش برازش کمک می کند. همانطور که مدل به آموزش ادامه می دهد؛ در ایتدا عملکرد خود را هم در مجموعه آموزشی و هم در مجموعه اعتبار سنجی بهبود می بخشد. با اين حال. در برخى مواقع. مدل ممکن است شروع به بیش برازش داده‌های آموزشی کند که منجر به کاهش عملکرد در مجموعه اعتبار سنجی و در عین حال بهیود در مجموعه ‏آموزشی می‌شود. توقف زودهنگام زمانی که عملکرد مدل در مجموعه اعتیارسنجی شروع به بدتر شدن می کند. این نقطه را مشخص می کند.

صفحه 103:
۷ دامه...؟ ۲ یافتن دور(600>/0) آموزشی بهینه: هدف از توقف زودهنگام یافتن نقطه بهینه در طول آموزش است که در آن مدل به اندازه کافی آموخته است که بدون بیش برازش به خوبی تعمیم دهد. با توقف فرآیند آموزش زملنی که عملکرد مدل در مجموعه اعتبارسنجی شروع به کاهش می‌کند. توقف زودهنگام. از بهینه‌سازی بیش از حد مدل در داده‌های آموزشی جلوگیری می‌کند و آن را به نقطه تعمیم بهینه هدایت می‌کند ۳ جلوگیری از بهیته سازی بیش از حد: ادامه 13 آموزش فرلتر از نقطه تعمیم بهینه می تولند منجربه بهینه سازی بیش از حد یا بیش برازش شود. که در آن مدل بیش از حد مختص به داده های آموزشی می شود و نمی تولند به خوبی به داده های دیده نشده تعمیم یابد. توقف زودهنگام با متوقف کردن فرآیند آموزش در مراحل اولیه زمانی که عملکرد مدل در مجموعه اعتبارسنجی نشان می‌دهد که آموزش بیشتر احتملاً منجر به بیش برازش می‌شوده از این امر جلوگیری می‌کند.

صفحه 104:
۷ دامه...؟ ۴ تعادل پیچیدگی مدل: توقف زودهنگام به یافتن تعادل بین پیچیدگی مدل و تعمیم کمک می کند. با متوقف کردن فرآیند آموزش قبل از رسیدن به نقطه پیچیدگی بیش از حد که ممکن است منجر به بیش برازش شود از پیچیده شدن بیش از حد مدل یا پرامتری شدن پیش از حد آلن جلوگیری می کند. با توقف زودهنگام. مدل مجبور می شود الگوهای اساسی در داده ها را بدون تطبیق بیش از حد با نویز يا نمونه های خاص ثبت کند. به طور کلی؛ توقف زودهنگام یک تکنیک منظم‌سازی موثر است. زیرا به مدل اجازه می‌دهد تا زمانی که به نقطه تعمیم بهینه برسد. آموزش داده شود و از تطبیق بیش از حد اجتناب کند. با نظارت بر عملکرد مدل در یک مجموعه اعتبارسنجی, توقف زودهنگام به ایجاد تعادل بین برازش داده‌های آموزشی و جلوگیری از پیچیدگی بیش از حد کمک می‌کند و در نهایت منجر به تعمیم بهتر و بهبود عملکرد در داده‌های دیده نشده می‌شود.

صفحه 105:
۸ مفهوم هایپر پارامترها در بادگیری عمیق را توضیح دهید. در يادكيرى عميق. هايبريارامترها بارامترهايى هستند كه قبل از فرآید آموزش تنظیم می شوند و رفا و ویژگی هی مدل را تعیین می کند. آنه از داده ها ید نمی گیرنه بکه توسمط کاب با محقی تمریف مي شون. هیر پارامترها قش مهمی در شکل دادن جه مععاری»فرآرد آموزش و عملکره کلی یک مفل یاد گیری عمیق دارند. در ايتجا جند نمونه رايج از هايير بارامترها در یادگیری عميق آورده شده است: ١.ميؤان‏ يادكيرى: - نرخ يادكيرى اندازه كام را در هر تكرار الكوريتم بهينه سازى كنترل مى كند (به عنوان مثال» نزول كراديان)؛ - تعبين مى كند كه بارامترهاى مدل در طول آموزش چذدر نیم ده استه - نرخ يادكيرى بالاقر ممكن است منجر به همگرایی سریعتر شود. اما همچنین می تولندباعث بی ثباتی شود و مدل را از يافتن راه حل بهينه باز دارد. نرخ. ياذكيرى كمتر ممكن است متجر به همكراض كندتر شودء اما مى توائد آموزش بايدارترع را ارائه دهد: ۲ تعداد لایه ها - تعداد لایه ها عمق شبکه عصبی را مشخص می کند. افزلیش تعداد لایه‌ها می‌تولند مدل را قادر به یادگیری نمایش‌های پیچیدهتر کند. اما همچنین ممکن است خطر بیش برازش را افزلیش دهد ووبه داده‌های آموزشی بیشتری نیاز داشته باشد.

صفحه 106:
. ‏دامه..‎ FA ۳ تعداد واحدها یا نورون ها در هر لایه: - تعداد واحدها در هر لایه ظرفیت یا پیچیدگی مدل را تعیین می کند. - واحدهای بيشتر به طور بالقوه مى توانند الكوهاى بيجيده ترى را درك كنند. اما ممكن است خطر بیش برازش را نیز افزایش دهند. رات سل سرت ‎ee‏ غير خطى بودن راايه مدال معرفى فى كتنقد ‎ ‏- توابع فمال سازى مختلف ويزكي عاى متفلوتى ذارنة و مى توانتد بر تواتابى مدل كر بادكيرى و تعميم تأثير بكطارنف - توابع فعال سازی رایج عبارتتد از 86۱1 8۳۰ ,519۴0010 و 50۴۳8 ۵ اندازه دسته: ‏- اندازه دسته. تعداد نمونه هلى آموزشى بردازش شده در یک گذر رو به جلو و عقب را در طول هر تكرار آموزش تعيين مى كند. ‏- اندازه دسته بزركتر ممكن است تخمين دقيق ترى از كراديان ارائه دهد اما به حافظه بيشترى نياز دارد. ‎ ‏اندازه دسته کوچکتر می تواند موارد تصادفى بيشترى را در فرآيند آموزش ايجاد كند.

صفحه 107:
. ‏دامه..‎ FA ۶ پارمترهای منظم سازی: - پارامترهای منظم سازی. مانند قدرت منظم سازی 1 یا 12ء میزان منظم سازی اعمال شده به مدل را کنترل می کنند. - آنها به جلوكيرى از بيش برازش و بهبود توانايى تعميم مدل کمک می کنند. نرخ حذف تصادفى - حذف تصادفی یک تکنیک منظم سازی است که در آن تعدادی از نورون های تصادفی انتخاب شده به طور موقت در طول آموزش نادیده گرفته می شوند. نرج حذف تعادفى ‎a‏ لاية تعيين عي كنل - نرخ ‎Glo‏ تصادفى بالاتر مى تواند توانايى مدل را براى تعميم افزايش دهد اما همجنين ممكن است ظرفيت آن را كاهش دهد.

صفحه 108:
. ‏دامه..‎ FA ۸ الگوریتم بهینه سازی: -الگوریتم بهینه سازی نحوه به روز رسانى بارامترهاى مدل را در طول آموزش تعيين مى كند. - مثال‌هایی از این الگوریتم ها عبارتند از نزول گرادیان تصادفی (56510). ۴۷15۵۲00 ۸۵013۲0۰ و موارد دیگر. اينها فقط جند نمونه از هايبربارامترها هستند و بسته يه مدل یا معماری خاص یادگیری عمیق که استفاده می شود. می تولند مورد دیگری نیز وجود داشته باشد. یفتن مقادیربهینهبرای هایپرپاامتره غلب از طریق ترکیبی از آزملیش, آزمون و خطاء و تكنيك هاى تنظيم هايبربارامتر مانند جستجوى شبکه ای یا جستجوی تصادفی انجام می شود. انتخاب هايبربارامترها مى تولند به طور قليل توجهى بر عملكرد مدل. سرعت همگرلیی تانلیی تعمیم و کرلیی محاسبانی تأثیر بگذارد. برای دستیابی یه بهترین عملکرد و اطمینان از آموزش و استقرارموفق مدل انتخاب دقیق و تنظیم دقیق هایبرپاامترها بسیار مهم است.

صفحه 109:
‎٩‏ برخی از هایپر پارامترهای تنظیم شده رایج در مدل های یادگیری عمیق کدامند؟ هنكام تنظيم هايبربارامترها در مدل هاى يادكيرى عميق. برخى از هايبربارامترهاى تنظيم شده معمول عبارتند از ‏الترخ يادكيرى: ‏- ترخ يادكيرى اندازه كام را براى به روز رسانى بارامترهاى مدل در طول بهينه سازى تعيين مى كند. ‏- به طورقلیل توجهی بر سرعت همگرایی و عملکرد مدل تأثیر می گذارد ‏-یافتن نرخ یادگیری مناسب برای آموزش موثر بسیار مهم است. ‏۲ اندازه دسته؛ ‏- اندازه دسته به تعداد نمونه های آموزشی پردازش شده در هر تکرار آموزش اشاره دارد. ‏- بر سرعت همگرایی» استفاده از حافظه و توانابی تعمیم تأثیر می گذارد. ‏- اندازه های مختلف دسته می تواند نتایج متفاوتی به همراه داث ‎ ‏باشد و اغلب مهم است که تعادل بهینه را بيدا كنيد.

صفحه 110:
‎٩‏ ادامه. ‎ ‏۳ تعدد لاه ها و واحده: = تعدادلیه ها و واحدها در هر ای معماری و ظرفیت مدل را مشخ می کند. ‏- تنظيم اين هايبربارامترها مى تواند ير توانايى مدل در يادكيرى الكوهاى بيجيده و توانايى تعميم آن تأثير بكذار ‏- لايه ها يا واحدهاى يسيار كم ممكن است منجر به كم برازش شوند. در حالى كه تعداد زياد ممكن است منجر به بيش برازش شود ‎alg ۴‏ قعال سازى. ‏- انتخاب توايع فمال سازى مى توللد بر توانابي مدل هر هراك روليط غير خطى, تالير يكنارده ‏- توابع فعال سازى رايج عبارتند از للاع8 .881 .5190010 و ‎softmax‏ ‏- انتخاب توابع فعال سازی مناسب برای لایه ها و کارهای مختلف ضروری است. ‎ ‎۵ ‎ ‏منظم سازی: ‏-تکنیک های منم سازی, اند مظم سازی 1 یا 1.2 بهجلکیری از بیش بازش کبک می کند ‎ ‏برت منظم سازی, كه معمولاً توسط يك هايبريارامتر كنترل مى شود بر ميزان منظم سازى اعمال شده تأثير مى كذارد. ‏- تنظيم اين هايبربارامتر به يافتن تعادل مناسب بين بيجيدثى مدل و تعميم كمك مى كند.

صفحه 111:
‎٩‏ ادامه. ۶ نرخ حذف تصادفی: ‏- حذف تصادفی یک تکنیک منظم سازی است که در آن تعدادی از نورون های تصادفی انتخاب شده به طور موقت در طول آموزش نادی ‎ ‎Aes ‏- نرخ حذف تصادفی احتمال حذف هر نورون را در یک لایه تعیین می کند. ‎ ‎ ‏- تنظیم نوخ حذف تصادفی می تواند بر توانايى مدل بای تعمیم و جلوگیری از بیش برازش ¥ بهينه ساز و بارامترهاى آن: ‏- انتخاب الكوريتم بهينه سازى. مانند نزول گرادیان تصادفی ‎Ce ps » ails 2 RMSprop L Adam (SGD)‏ و همكرايى آموزش تاثير ‏بكذارد. ‏- هر بهينه ساز ممكن است هايبربارامترهاى خاصى براى تنظيم داشته باشد. مانند تكانه نرخ فروباشى يا نرخ يادكيرى تطبيقى.

صفحه 112:
‎٩‏ ادامه. ‎ ‎A‏ پارمترهای توقف زودهتگام: - توقف زودهنگام تکنیکی برای جلوگیری از بیش برازش با توقف آموزش در زمانی که عملکرد مدل در مجموعه اعتبارسنجی بدتر می شود - پارامترهای خاص برای توقف زودهنگام. مانند صبر یا معیارهای تعیین کاهش عملکرد. قابل تنظیم هستند. ‏توجه به این نکته مهم است که انتخاب و تنظیم هایپرپارامترها می تواند مشکل خاصی باشد. علاوه بر لین, تکنیک‌هلیی مانند زمان‌بندی نرخ یادگیری» ‏روش‌های مقداردهی اوليه وزن. و استراتزىهاى افزايش داده نيز بر عملكرد مدل تأثير مى كذارند و بايد در طول تنظيم هايبريارامتر در نظر گرفته شوند. ‏تنظیم هایپرپارامتر معمولاً یک فرآیند تکراری است که شامل آزمایش, ارزیلبی ترکیب‌های مختلف و استفاده از تکنیک‌هایی مانند جستجوی شبکه‌ای, جستجوی تصادفی یا روش‌های پیشرفته‌تر منند بهینه‌سازی بیزی یا الگوریتم‌های ژنتیک است. هدف یافتن ترکیبی بهینه از هايبربارامترها است كه ‏منجر به بهترین عملکرد و تعمیم مدل یادگیری عمیق برای یک وظیفه و مجموعه داده معین می شود.

صفحه 113:
۰ چگونه می توان تنظیم هایپرپارامتر را در یادگیری عمیق انجام داد؟ تنظيم هايبربارامتر در يادكيرى عميق شامل يافتن تركيب بهينه هايبربارامترها است كه منجر به بهترین عملکرد و تعمیم مدل مى شود. در إينجا جند رويكرد و تكنيك متداول براى انجام تنظيم هايبربارامتر در يادكيرى عميق أورده شده است 1 تنم دستی: - ساده ترين روش انتخاب دستی و تنظیم هایپرپارامترها بر اساس دانش و شهود قبلی است. - با برخى از مقادير اوليه شروع كنيد و همزمان با ارزيابى عملكرد مدل. هایپراامترا را ه طور مکر اصلاح کنید. - اين رويكرد براى آزمايشهاى مقياس كوجك يا زمانى كه تعداد هايبربارامترها محدود است مناسب است. ۲ جستجوی شبکه: - جستجوی شبکه ای شامل تعریف شبکه ای از مقدیر ممکن برای هر هايبربارامتر و جستجوی جامع همه ترکیبات ممکن است. - مدل برای هر ترکیب آموزش و ارزیبی می شود و بهترین عملکرد مجموعه هايبربارامترها انتخاب مى شود. - جستجوی شبکه زمانی موثر است که فضای هایپرپارامتر نسبتاً کوچک باشد. اما مى تواند از نظر محاسبانی برای فضاهای جستجوی بزرگتر كران باشد.

صفحه 114:
۰ ادامه... ؟ ۲ جستجوی تصادفی: - جستجوی تصادفی شامل نمونه گیری تصادفی ترکیبی از هایپرپارمترها از محدوده های از پیش تعریف شده است. - این روش از نظر محاسباتی کمتر از جستجوی شبکه ای هزینه دارد. اما همچنان می تواند طیف گسترده ای از ترکیبات هایپرپارامتر را بررسی کند. - جستجوی تصادفی زمانی کارآمدتر است که تتها چند هایپرپارامتر تأثیرقابل توجهی بر عملکرد مدل داشته باشند. ؟. بهينه سازى بيزى: - بهینه سازی بیزی رویکرد پیشرفته تری است که از مدل های احتمالی برای هدایت جستجوی هایپرپارامترهای بهینه استفاده می کند. - عملکرد. مدل رابه عنون تبعی از هایبرپرمترها مدل می کند و مجموعه بعدی هایپراامترها را بای ارزیلبی بر اساس ارزیلبی های قبلی انتخاب مى کند. - بهینه‌سازی بیزی نسبت به جستجوی شبکه‌ای یا جستجوی تصادفی سریع‌تر همگرا می‌شود و برای فضاهای جستجوی بزرگ‌تر مناسب است.

صفحه 115:
۰ ادامه... ؟ ۵. کتابخانه های تنظیم خودکار هایپرپارامتر: - چندین کتابخانه و چارچوب در دسترس هستند که فرآیند تنظیم هایپرپارامتر را خودکار می کنند. - این کتابخانه ها مانند 001۳3 ,۳۱۷۵6۳0۵۲ با 1۳6۲ 6۲85 الگوریتم ها و رابط های کارآمدی را برای جستجو و بهینه سازی ايبربارامتر ارائه مى دهند. - آنها دي تواقلد فشاهلي جستجري هاببرواراستري سلته و بوجرده را مديريت كندد واظب وكيا ‎Se‏ راحت با جارجوب على بلذكيرى عديق سس و می دهند. ۶ اعتبار سنجی متقابل: - اعتبار سنجی متقابل اغلب همراه با تنظیم هایپرپارامتر برای به دست آوردن تخمین های عملکرد قابل اعتمادتر استفاده می شود. -به جای یک تقسیم آزمون/ آموزش واحد داده ها به چند قسمت تقسیم می شون و مدل بر روی ترکیب های مختلف قسمت ها آموزش و ارزیبی می ند و خطر یش برازش برای یک تقسیم داده خاص را کاهش می دهند. پارامترها بر اساس میانگین عملکرد در قسمت ها تنظیم می

صفحه 116:
۰ ادامه... ؟ ۷ معیارهای ارزیابی: - انتخاب معيارهاى ارزيابى مناسب براى ارزيابى عملكرد مدل در طول تنظيم هايبربارامتر مهم است. - انتخاب معيارها به وظيغه و مسله خاس بستگی دارد, ماندد دقت. زیانه صحت‌ترخ بادآوری ۰ 1-5601 با ناحیه زیر صنحدى-لاله) 806 ‎ROC)‏ شایان ذکر است که تنظیم هایپرپرامتر می تولند یک فرآیند محاسباتی فشرده باشد که به منلبع محاسباتی و زمان قلبل توجهی نیاز دارد.بتبرلین» لب لازم است بين تعداد هایپرپارامترهای تنظیم. فضای جستجو و منابع موجود تعادل ایجاد شود. علاوه بر این, تکنیک‌هایی مانند توقف زودهنگام. تر کیب مدل. یا یادگیری انتقالی نیز می‌توانند بر عملکرد مدل تأثیر بگذارند و باید در طول تنظیم. هايبربارامتر در نظر كرفته شوند ابه طور كلى. تنظيم هايبربارامتر يك فرآيند تكرارى است كه شامل بررسی ترکیب های مخظف هايبربارامترهاء ارزيلبى عملكرد مدل و اصلاح جستجو بر اساس نتایچ است. هدف یافتن مجموعه‌ای از هایپرپارامترها است که عملکرد مدل را بر روى وظيفه و مجموعه داده(0313561]) داده شده بهینه می‌کند.

صفحه 117:
۱ مفهوم داده افزایی +دهناهاده‌صوه م121) چیست؟ داده افزایی تکنیکی است که معمولً در یادگیری ماشین و می‌شود. لین عمل شامل اعمال تغییرات یا اصلاحات مختلف در نمونه داده‌های موجودبا حفظ برچسب‌های اصلی یا مقادیر هدف است. سپس داده های ایی کامپیوتر برای افزایش مصنوعی اندازه و تنوع مجموعه داده‌های آموزشی استفاده افزوده شده برای آموزش مدل های یادگیری ماشین استفاده می شود. هدف اصلی داده افزایی : بهبود تعمیم و استحکام مدل های آموزش دیده با قرار دادن آنها در معرض انواع بیشتری از نمونه های داده است. با معرفی ات در مجموعه آموزشی. مدل‌ها توانایی بیشتری در مدیریت انواع ورودی‌ها پیدا می‌کنند و کمتر به الگوهای خاص یا بایاس‌های موجود در داده‌های اصلی اضافه می‌شوند. داده افزلیی را می توان برای انواع مختلفی از داده ها مانند تصاویر. متن. صدا یا سری های زملنی اعمال کرد. تکنیک های خاص افزلیش به حوزه داده و عسل عورد نظر يستكى دارد. به عنوان متال» در داددهاى تصوير, عمليات على رايج افزایس داده ساسل چرعس, ترجمه مقياس‌بد ی 1110۵1119 برش تغيير رنك. اضافه كردن نويز و انسداد است. در پردازش زبان طبيعى. تكنيك هايى مانند جايكزينى كلمه: درج. حذف وبه هم ريختن جمله مى توانند برأى تقويت عتن استفاده شوند.

صفحه 118:
۱ دامه مفید است که دادم های آموزشی موجود محدود باشد» زبرا به طور موثری اندازه موثر مجموعه داده ‏ داده افزايى به ويه زه افزايش مى دهد. اين عمل. كمك مى كند قا از بيش برازش جلوكيرى شود. زيرا مدل در معرض نمونه هاى متنوع ترى قرار می كيرد كه تغييرات و سناريوهاى مختلف راجه تصوير مى كشد. اوه بر لین, داده افزليى همجنين مى تولند با ايجاد نمونه هاى مصنوعى براى كلاس ها اقليت. مسائل مربوط به نامتوازنى كلاس را برطرف کنده در نتیچه توزیم کلاش ها را در داده های آموزشی متعادل می کند. به طور کلی؛ داده افزلیی یک تکنیک ارزشمند برای افزایش عملکرد و قابلیت تعمیم مدل های یادگیری ماشین با گسترش مصنوعی مجموعه داده های آموزشی با تغییرات واقعی داده های اصلی |

صفحه 119:
۳۲ چگونه داده افزابی به بهبود عملکرد مدل های بادگیری عمیق کمک می کند؟ داده افزایی از چند جهت در بهیود عملکرد مدل‌های یادگیری عمیق نقش اساسی دارد: 1 افزلیش تنوع داده هابا اعمال تفییرات و اصلاحات مختلف در داده های آموزشی» داده افزلیی طیف وسیع تری از تغییرات و ستاریوها را معرفی می کند. این افزایش تنوع داده‌ها به مدل کمک می‌کند الگوها را از دیدگاه‌های مختلف تشخیص و تعمیم دهد. که منجر به عملکرد بهتر در داده‌های دیده نشده می‌شود. ۲ تعمیم بهبود یافته: مدل های یادگیری عمیق تملیل به داشتن تمداد زیادی پارامتر دارند و مستعد بیش برازش هستند به خصوص زملنی که مجموعه ‎ass‏ آموزشی کرچک لست. داده آفزایی به طور موتر مجموعه دلده ر[ گنتترش عي دهد و تمیته های متنوع تری را برای مدل ‎SOUT TE Gus cally‏ بكيرد. با قرار هادن مدل در معرض اتباع بيشترى از نموتمها. مدل قوی‌تر می‌شود و لجتمال اننکه نمونه‌های آموزشی حلص را به خاطر یپرد کمتر می‌شود. و در نتیجه تعمیم بهتری به داده‌های جدید و نادیده می‌شود. ۳ استقامت نسیت به تغییرات: داده های دنیای واقعی اغلب تنوع و تغییرات مختلفی را نشان می دهند. مائند تغییرات در شرایط نوره دیدگاه مقیاس یا نویز. با استفاده از تکنیک‌های داده افزاییی که این را در طول آموزش شبیه‌سازی می‌کنند. مدل اتعطافيذيرتر مىشود و قادر به مديريت جنين سناريوهاى دنياى واقعى است. اين امر به بهبود عملكرد مدل در مواجهه با داده هاى ورودى كه با نمونه هاى آموزشى اصلى متفاوت است. كمك مى كند.

صفحه 120:
۲ ادامه..؟ ۴ پرداختن به نامتوازنی کلاس: در بسیاری از مسائل طبقه بندی: داده های آموزشی ممکن است توزیع نامتوازنی در بین کلاس های مختلف داشته باشند. جلیی که برخی از کلاس ها نمونه های کمتری نسبت به سایرین دارند. داده افزلیی می تولند نمونه های مصنوعی برای کلاس های اقلیت ایجاد کند. وبه طور موثر توزیع کلاس را متوازن کرده و از یاس مدل به سمت كلاس اكثريت جلوكيرى مى كند. اين امر به بهيود عملكرد مدل در كلاسهاى اقليت كمك مىكند. ۵ کاهش بیش برازش: داده افزایی. تصادفی بودن و تنوع را به فرآیند آموزش وارد می کند و به عنوان نوعى منظم ساز عمل مى كند. اين اثر منظم‌سازی, به جلوگیری از بیش برازش کمک می‌کند. جایی که مدل بیش از حد به داده‌های آموزشی برازش می‌شود و روی داده‌های دیده نشده ضعیف عمل می‌کند. با افزلیش مجموعه آموزشی, مدل در معرض تغیبرات مختلف قرار می گیرد و قوی تر می شود که این امر منجر یه بهبود عملکرد تعمیم می شود. توجه به لین نکته مهم است که داده افزایی باید با ملاحظات خاص دامنه اعمال شود. انتخاب تکنیک‌های داده افزایی باید بر اساس ویژگی‌ها و الزامات داد‌ها و همچنین مساله خاصی که به آن پرداخته می‌شود هدایت شود

صفحه 121:
۳ مفهوم قطعه بندی تصوبربط0] 560160 1۳026 ) را در یادگیری عمیق توضیح دهید. قطعه‌بندی تصویر یک وظیفه بینلیی کامپیوتری است که شامل تقسیم یک تصویر به نواحی یا بخش‌های معنادار و از لحاظ معنلبی منسجم است. هدف لین است که به هر پیکسل در تصویر یک برچسب یا دسته بندی اختصاص دهیم و به طور موثر یک ماسک یا نقشه در سطح پیکسل ایجاد کنیم که آشیا با تواحی محتلف را در تصنوير جدا مى كتدد در زمینه یادگیری عمیق, قطعهبندى تصوير معمولاً به عنوان يك مساله يادكيرى تحت نظارت در نظر گرفته می‌شود. مدل‌های یادگیری عمیق. مانند شبکه‌های عصبی کانولوشن ((1-)» برای پیش‌بینی ماسک‌های قطعه بندی از مجموعه داده‌های آموزشی برچسب‌گذاری‌شده» که در آن هر تصویر با برچسب‌های حقیقت میتتی بر پیکسل حاشیه‌نویسی می‌شود.آموزش دیداد فرآیند قطعه بندی تصویر شامل مراحل زیر است: ۱. تصویر ورودی: تصویری که باید قطعه بندی شود به عنوان ورودی به مدل یادگیری عمیق وارد می شود. این مدل معملا از لی‌های متعددی از عملیات کانولوشن, ادغام و نمونهبداری تشکیل می‌شود که ویژگی‌های محلی و سراسری تصویر ورودی را ضبط و پردازش می‌کند

صفحه 122:
۳ ادامه... . ۲ رمزگذاری:لایه های اولیه مدل با استخراح ویژگی های سلسله مراتبی از طریق عملیات کانولوشن, تصویر ورودی را رمزگذاری می کند لین فرآیند الكوهاى بصرى سطح بايين. مانند لبدها و بافتهاء و همچنین ویژگی‌های سطح بلاتری را که اشکال و ساختارهای پیچید‌تری را نشان می‌دهند. درک می‌کند. ۲ رمزگشلیی: ویژگی های کدگذاری شده سپس از لایه های بعدی عبور می کنند که عملیات ۷053۲00۱۳9 و 60۳0۷01۱010۳2۱ را انجام می دهند. لین فرآیند رمزگشایی با هدف بزیلبی وضوح فضایی تصویر اصلی در حللی که ویژگی های آموخته شده را تجمیع و یکپارچه می کند. انجام می شود. ؟: طبقه بندی پیکسلی: در لایهنهیی مدل, یک طبقه بندی پیکسلی انجام می شود لین لایه یک توزیع احتمال یا یک امتیاز اطمینان برای هر پیکسل خروجی می دهد که نشان دهنده احتمال تعلق به کلاس ها یا بخش های مختلف است. تعداد کانال های خروجی در این لایه با تعداد کلاس ها یا قطعه های مجزا مطابقت دارد.

صفحه 123:
۳ ادامه... . ۵. آموزش: در طول مرحله آموزش, مدل برای به حداقل رساندن اختلاف بین ماسک‌های قطعه‌بندی پیش‌بینی‌شده آلن و ماسكهاى حقيقت مبنا ارائه‌شده در مجموعه داده آموزشی برچسب گذاری‌شده. بهینه‌سازی می‌شود. لین امر معمولاً بابه حداقل رساندن یک تلبع زیان» مانند آنتروپی متقابل یا خطای میانگین مربعات پیکسل, که تفاوت بین ماسک های حقیقی پیش بینی شده و مبنا را حساب می کند. انجام می شود. ۶ استنتاج: هنگامی که مدل آموزش داده شد. می توان از آن برای قطعه بندی تصاویر جدید و دیده نشده استفاده کرد. تصوير ورودی از طریق مدل آموزش دیده ارسال می شود و خروجی یک ماسک تقسیم بندی در سطح پیکسل است که در آن به هر پیکسل یک برچسب یا کلاس مربوط به قطعه شناسایی شده اختصاص داده می شود. قطعه بندی تصویر کاربردهای متعددی در حوزه‌های مختلف دارده مانند تصویربرداری پزشکی, رانندگی خودکار تشخیص اشیاء ویرایش تصویر و درک ee ee ee ‏بعنا. آين روش‎ تسهیل می‌کند.

صفحه 124:
۴ برخی از معماری های متداول برای قطعه بندی تصویر کدامند؟ چندین معماری متداول برای قطعه‌بندی تصوير وجود دارد که بسیاری از آنها عملکردی پیشرفته در مجموعه داده‌های معیار به دست آورده‌اند. برخی از معماری های قابل توجه عبارتند از: ‎U-Net .1‏ :)عل-لا یک معماری پرکاربرد و تاثیرگذار برای قطعه بندی تصویر یک ساختار رمزگذار-رمزگشا با اتصالات پرش تشکیل شده ‎ ‏است. مسیر رمزكذار. زمينه و ويزكىها را از طريق عمليات نمونفبردارى بابين درك مى كند. در حللى كه مسير رمزكشاء نموتفبردارى را نجام می‌دهد و وضوح فضايى را بازيابى مىكند. اتصالات برش لايههاى رمزكذار و رمزكشاى مربوطه را براى حفظ جزئيات دقيق به هم متصل مىكنند. :6 /١-لا‏ در ‏کارهای قطعه بندی مختلف. به ويزه در تجزيه و تحليل تصوير زیست پزشکی موفق بوده است. ‎DeepLab: DeepLab ۲‏ خانواده ای از معماری ها است که بر پایه کانولوشن های گسترش يافته و ادغام هرم فضايى آتروس (8588) بنا شده است. کانولوشن های گسترش یافته به مدل امکان می‌دهند بدون کاهش وضوح فضایی, میدان دریافتی بزرگ‌تری داشته باشد. ۸۵5۴ از کانولوشن های گسترش یافته موازی با نرخ های گسترش مختلف برای ثبت اطلاعات متن چند مقیاسی استفاده می کند. مدل‌های 266010 با ‏نع مختلفی مانند 0660120۷3 و 066010۷3+ به عملکردی قوی در وظایف قطعه‌بندی معنابی دست یافت‌اد.

صفحه 125:
۴ ادامه.. ‎R-CNN: Mask R-CNN ¥‏ ۷851 توسعه‌ای از معماری سریعتر تشخیص شی ‎Sa fold af CI R-CNN‏ شاخه اضافی برای قطعه‌بندی نمونه در سطح پیکسل است. این روش شبکه‌های پیشنهادی ناحیه ‎٩(‏ را برای تشخیص شی و یک شبکه کاملاً انولوشن برای قطمه بندی ‎Mask R-CNN ws 6 55‏ ثلبت کرده است که در قطعه بندی اشیاء متعدد در یک تصویر موثر است و به یک انتخاب محبوب برای کارهای قطعه بندی نمونه تبدیل شده است. ‏۴ (شبکه تمام کانولوشنال): ۲/۷ یکی از اولین معماری های پیشگام برای قطعه بندی تصویر است. این لایه‌های تمام متصل ‎CNN oS,‏ سنتی را با لیه‌های کانولوشن جایگزین می‌کند و پیش‌بینی‌های سطح بيكسل انتها به انتها را امكان بذير مىكند. 6۷*] مفهوم ۱0531۳۵11۳9 و رد کردن اتصالات را برایبازیایی وضوح فضایی و ترکیب ویژگی‌ها از مقیاس‌های مختلف معرفی کرد. اگرچه معماری های بعدی بر اساس ل۷ ۴ ساخته شده اند. اما همچنان یک مدل اساسی و تأثیرگذار در اين زمینه است. ‏۵ (شبکه تجزیه صحنه هرمی) ۳5۳۱۱6 : 6۲! ۳۹ از یک ماژول ادغام هرمی برای جمع آوری اطلاعات زمیته ای چند مقیاسی استفاده می کند.با تقسیم تصوير ورودی به شبکه‌ها و ادغام ویژگی‌ها در مقیاس‌های مختلف, متن عمومی رابه تصوير می‌کشد. سپس ویژگی های ادغام شده نمونه برداری می شهند و برای ایجاد نقشه قطعه‌بندی نهلیی می شوند. ۳5۳/۷61 به نتلیج رقابتی در وظلیف قطعه‌بندی معنلیی دست یافته است و اهمیت گرفتن اطلاعات متنی را نشان می‌دهد. ‎ ‎ ‏اينها تتها چند نمونه از معماری های محبوب برای قطعه‌بندی تصوير هستند. دیگر مدل های قابل توجه عبارتند از ,۶۱6 :۴۵-۲6056۱۱6 6لالا++ و بسیاری دیگر. انتخاب معماری به نیازهای خاص وظیفه, منابع موجود و مجموعه داده مورد نظر بستگی دارد.

صفحه 126:
۵ مفهوم تشخیص شی در یادگیری عمیق چیست؟ تشخیص اشیاء یک وظیفه بینلیی کامپبوتری است که شامل شناسایی و مکان یلبی چندین شی مورد علاقه در یک تصوير یا یک ویدیو است. هدف این کار شناسایی وجود اشیا و اراند مختصات جعبه مرزی آنها به همراه برچسب های کلاس مربوطه آنهاست. در زمینه یادگیری عمیق. تشخیص شی معمولاً به عنوان یک مساله یادگیری نظارت شده تلقی می شود. مدل‌های یادگیری عمیق, مانشد شبکه‌های عصبی کانولوشن (!|-))» برای یادگیری نمایش‌ها و ویژگی‌های اشیاء از مجموعه داده‌های آموزشی برچسب گذاری‌شده آموزش دیده‌اند. سپس از مدل ها برای پیش بینی حضور مکان و کلاس اشیاء در تصاویر با ویدیوهای جدید و دیده تشده استفاده می شود. مفهوم تشخیص شی شامل عناصر کلیدی زیر است: ۱.مکان یلبی: تشخیص اشیانه تنها با هدف شناسایی اشیاء بلکه مکان یلبی آنها با ارلئه مختصات جعبه مرزی دقیق انجام می شود. جعبه مرزی ناحیه مستطیلی اهمراء عرض وارتطاع جعبه مرزى ‎Seca eee‏ آن می دهد که شی را در تصویر محکم محصور می کند. مختصات معمولا از مختصات بالا چپ و پایین راست یا مختصات مرا

صفحه 127:
۵ ادامه...؟ ۲. طبقه بندی: تشخیص اشیا شامل تخصیص برچسب های کلاس به اشیاء شناسایی شده است. به هر شی یک کلاس خاص از یک مجموعه از پیش تعریف شده از دسته‌هاء مانند «ماشيين». «شخص». «گربه» و غیره اختصاص داده می‌شود. طبقه‌بندی معمولاً با استفاده از توابع فعال‌سازی 5013 يا 510170010 براى توليد احتمالات كلاس براى هر شى شناسايى شده انجام مىشود. ۳ تشخیص چند شی»: مدل های تشخيص شى براى تشخيص جندين شى در يك تصوير یا یک ویدیو به طور همزمان طراحی شده اند. مدل‌ها باید سناریوهایی را مدیریت کنند که در آن چندین نمونه از یک کلاس یا کلاس‌های مختلف ممکن است همزمان وجود داشته باشند. خروجی یک مدل تشخیص شی شامل مختصات جعبه مرزی و برچسب های کلاس برای تمام اشیاء شناسایی شده در تصوير است. ۴ همپوشلنی و حذف نقاط غیر بیشینه: در مواردی که جمبه های محدودکننده متعدد با هم همپوشانی دارند یا یک شی را می پوشانند. یک تکنیک پس پردازش به نام حذف نقاط غیر بیشینه(15]) اغلب استفاده می شود. 115 با در نظر گرفتن امتیازات اطمینان تشخیص‌ها و انتخاب ار و ‎ee‏ اشافى يا همررشاتى را خذف م ىكتد تشخيص شيا كاربردهاى متعددى از جمله رانندكى خودكار. سيستم هاى نظارتى. تشخيص اشياء تجزيه و تحليل ويديويى و روباتيك دارد. اين الكوريتم ماشينها را قادر مىسازد نا با شناسايى و مكان يلبى اشياء مورد نظر. محيط اطراف خود را درک کنند و در برنامههاى بينايى كامبيوثرى بيشرفتهتر و هوشمندتر استفاده شوند.

صفحه 128:
۶ تفاوت روش های تشخیص اشیاء یک مرحله ای و دو مرحله ای را توضیح دهید. روش های تشخیص اشیاء یک مرحله ای و دو مرحله ای دو رویکرد متفاوتی هستند که در یادگیری عمیق برای شناسایی و مکان یابی اشیء درون تصاویر استفاده مى شوند. تفاوت اصلى در تعداد مراحل دركير در فرآیند تشخيص و نحوه مديريت مکان بلبی آشبا مش ااستم ‎.١‏ تشخيص شى دو مرحله ای: در روش هاى تشخيص شى دو مرحله اى. فريند تشخيص به دو مرحله بيشتهاد ناحيه و طيقه بندى تقسيم مى شود. ‏مرحله ‎:١‏ ييشنهاد ناحيه ‏مرحله اول شامل ایجاد مجموعه‌ای از پیشنهادات ناحیه ای است. که کاندیدهای بالقوه جعبه مرزی هستند که ممکن است حاوی موضوعات مورد نظر باشند. اين پيشنهادها معمولاً یا استفاده از تکنیک‌هایی مانتد جسنجوی انتخلبی, جعبه‌های لبه یا شبکه‌های پیشنهاد ناحیه (/۳]) تولید می‌شوند. هدف کاهش فضای رو سای وس بای مر تور بتک حاو لخاد + ‏مرحله ۲: طبقه بندی و پالایش ‏در مرحله دوم. پیشنهادات ناحیه ای تولید شده در مرحله قبل بیشتر اصلاح شده و در کلاس های شی خاص طبقه بندی می شوند. مدل های یادگیری عمیق. ‏مانتد لا عد برای استخراج ویژگی ها از نواعى ييكتهادى و طبقه بندی آنها بر لسلس تدايش های آموخته شده استفاده مي شون مختصات جمبه مرزی اصلاح شده رای تراز بهتر با اشیاء در تصویر تنظیم می شود. مدل‌های متداول برای تشخیص شی دو مرحله‌ای عبارتند از 8۳۵۷۸۷ 6۲اکو۴ و ‎R-CNN‏ ‎ ‏روش‌های دو مرحله‌ای معمولاً به دلیل پیشنهاد ناحیه جداگانه و مراحل طبقه‌بندی. دقت بالاتری دارند. با این حال. آنها از نظر سرعت استنتاج کندتر هستند.

صفحه 129:
. ‏ادامه...‎ FF ۲ تشخیص شی یک مرحله ای روش‌های تشخیص شی یک مرحله‌ای. مکان یلبی و طبقه‌بندی شی را در یک گذر شبکه انجام می‌دهند و نیازی به یک مرحله پیشنهاد ناحیه جداگانه را از بین می‌برند. در یک رویکرد یک مرحلداى. شبكه مستقيماً برجسبهاى كلاس و مختصات جعیه مرزی را برای همه مکان‌های بالقوه در تصویر پ مکان ها از پیش تعریف شده و به طور متراکم در سراسر تصویر در مقیاس ها و نسبت های مختلف نمونه برداری می شوند. سپس استفاده از آستانه اطمینان و حذف نقاط غیر بيشینه فیلتر می‌شوند تا نتایج تشخیص نهابی به دست آید. روش‌های یک مرحله‌ای به دلیل ماهیت تک‌گذری. عموماً سریع‌تر از روش‌های دو مرحله‌ای هستند. اما ممکن است در مقایسه با روش‌های دو مرحله‌ای. مقداری دقت را قربانی کنند. مدل‌های رایج تشخیص شی یک مرحله‌ای عبارتند از ۷۵10 (شما فقط یک بار نگاه می‌کنید) و 51۳916) 550 ‎Shot MultiBox Detector)‏ انتخاب بین روش های تشخیص اشیاء یک مرحله ای و دو مرحله ای به نیازهای خاص برنامه بستگی دارد. روش‌های دو مرحله‌ای اغلب زملنی که دقت بالاتر ضروری است ترجیح داده می‌شوند. در حالی که روش‌های یک مرحله‌ای برای کاربردهای بلادرنگ که سرعت در اولوبت است. ترجیح داده می‌شوند.

صفحه 130:
۷ معماریهای مشهور برای تشخیص شی چیست؟ چندین معماری مشهور برای تشخیص اشیا وجود دارد که عملکرد پیشرفته‌ای را در مجموعه داده‌های معیار به دست آورده‌اند. در اینجا چند نمهنه قلبل توجه آورده شده است: !۱۱۷ سریمتر. 6339 سریمتر یک معماری تشخیص اشیا برکربرد و تأشرگتار است. این معماری شامل دو جزء اصلي است, یک شبکه پیشنهادی ناحیه ‎)6٩۳/۷(‏ برای تولید پیشنهادات ناحیه و یک شبکه عصبی کانولوشن مبتنی بر ناحیه (/۷(۷//)-) برای طبقه‌بندی و رگرسیون جعبه مرزی. !13-6-81 سریع‌تر با ترکیب مزایای روش‌های پيشنهاد ناحیه و مدل‌های طبقه‌بندی مبتنی بر یادگیری عمیق, به دقت بالایی دست مىيابد. ۲ ۷۵۱۵ (شما فقط یک بار نگاه می کنید): (۷0(16 یک معماری تشخیص اشیاء یک مرحله ای است که به دلیل عملکرد بلادرنگ خود شناخته شده است. ۷0۵10 تصویر ورودی را به یک شبکه تقسیم می کند و جعبه های محدود و احتمالات کلاس را مستقیماً از هر سلول شبکه پیش بینی می کند. ۷0۵16 به دلیل ماهیت تک گذر خود سریع و کارآمد است. اما ممکن است کمی دقت را در مقایسه با روش های دو مرحله ای قربلنی کند. انواع ۷۵1۵ عبارتند از ۲۷۵۱۵۷2۰۷۵۱۵۷3 و ۲۷۵۱۵۷4 ‎Detector): SSD +‏ ۱۸۵۱۱8۵۲ 5۱0۴ او5) 5510 یکی دیگر از معماری های مشهور تشخیص اشیاء یک مرحله ای است. از یک سری لایه های کانولوشن با وضوح های فضایی مختلف برای تشخیص اشیاء در مقیاس ها و نسبت های چندگانه استفاده می کند. 5510 جابجایی جعیه محدود و احتمالات کلاس را در هر مکان در نقشه های ویژگی پیش بینی می کند. این معماری به تعادل خوبی بين سرعت و دقت دست مى یابد.

صفحه 131:
۷ ادامه..؟ ۴ 86۵۲۱۳۵۱۱۵۲ :)۴6/0816 یک معماری تشخیص شى دو مرحله ای است که برای رسیدگی به مسئله نامتوازنی کلاس در مجموعه داده های تشخیص اشیا طراحی شده است. لین معماری یک زیان کانینی را معرفی می کند که آموزش را بر روی نمونه های سخت و طبقه یندی اشتباه متمرکز می کند و به بهبود تشخیص اشیاء نادر کمک می کند. 6110216 از یک شبکه هرمی ویژگی (۳۳۸۷) برای گرفتن ویژگی‌های چند مقیاسی استفاده می‌کند و به عملکرد قوی در وظایف تشخیص اشیا دست يافته است. ‎Ss EfficientDet: EfficientDet »‏ معماری کارآمد تشخیص اشیا است که یا تعداد پارامترهای کمتر و هزینه محاسباتی به دقت بالایی دست می یابد. این شبکه‌های اصلی کارآمد (مانند )1616۳00016 رابا 51۳۳۱ (شبکه هرمی ویژگی دو جهته» ترکیب می‌کند و مقیاس‌بندی ترکیبی را برای متعادل کردن دقت و کارایی در اندازه‌های مختلف مدل اعمال می‌کند. ‏اینها تنها چند نمونه از معماری های مشهور برای تشخیص اشیا هستند. مدل‌های قلبل توجه دیگر عبارتند از ‎Cascade R-CNN. Mask R-‏ ‎CNN‏ که تشخیص اشیا را به قطعه‌بندی نمونه گسترش می‌دهد) و بسیاری دیگر. انتخاب معماری به نیازهای خاص وظیفه. منابع موجود و تعادل بين ‏دقت و کارایی بستگی دارد.

صفحه 132:
طبیعی (۴.-11) چیست؟ ۸ مفهوم پردازش زا پردازش زبان طبیعی (۱11۳) رشته ای از هوش مصنوعی و زبان شناسی محاسباتی است که بر تعامل بین کامپیوتر و زبان انسان تمرکز دارد. لين رشته شامل مطالمه. توسعه و استفاده از لگوریتم‌ها و مدل‌ها می‌شود تا کلمپیوتر ها را قاد به درک» تفسیرء تولید و دستکاری زبان انسان به روشی مقید و معنادار کند. الا طیفگ سردم لواز وظايفو تسكنيكهارا در بسر مىكسيرد. از جملد: ۱ درک متن: هدف الا] اين است كه كامييوتر ها را قادر به درك و استخراج معنى از متن كند. اين كار شامل وظايفى مانند طبقه بندى متن. تجزيه و تحلیل احساسات. شناسايى موجوديت نام دار و استخراج اطلاعات است. هدف این است که ماشین ها بتوانند داده های متتی را به روشی مشلبه انسان ها درک و پردازش کنند. .توليد زبان: ‎ols NLP‏ تولید زبان مشلیه انسان توسط ماشین ها می شود. لین عمل شامل وظیفه هلیی مانند خلاصه‌سازی متن. ترجمه ماشینی: تولید گفتگو و تبدیل ستن به گفتار است. هدف تکنیک های تولید زبان. تولید مت با خروجی گفتار منسجم و مناسب با متن است. ۳ پردازش گفتار: ۱1-8 همچنین به تجزیه و تحلیل و پردازش زبان گفتاری می پردازد. لین کار شامل وظایفی مانند نشخیص خود کار گفتار ‎MASR)‏ ‏شسای گوینده. و ترکب گفتار است. هدف تكنيك على بردازش گفتار تبدیل زبان گفتاری به متن نوشتاری و بالمعس است و ماشن‌ها را قادر می‌سازد تا ویان گفتاری را بفهمند و با آن تعامل داشته باشند.

صفحه 133:
۸ ادامه...؟ ۴ پاسخ به سوال: #ال| وظیفه ساختن سیستم هلیی را بر عهده دارد که می تونند به سوالات مطرح شده یه زبان طبیعی پاسخ دهند. لین کار شامل درک معنای سوال, بازیابی اطلاعات مرتبط از منایع داده های ساختاریافته یا بدون ساختار. و ایجاد یک پاسخ مختصر و دا ۵. مدل‌سازی زبان: مدل‌سازی زبان جزء اصلی الا است که شامل پیش‌بینی احتمال دنباله کلمات یا تولید متن جدید بر اساس الگوهای آموخته شده است. مدل‌های زبان نقش مهمی در کارهایی مانند ترجمه ماشینی, تکمیل متن و تولید زباندارند تکنیک‌های "لا بر رویکردهای مختلفی از جمله روش‌های آماری. یادگیری ماشینی؛ یادگیری عمیق و سیستم‌های مبتنی بر قانون تکیه دارند. ين روش‌ها از مقادیسر زیادی از داده‌های متنضی اسستفاده می‌کنند و از الگوریتم‌هایسی مانند شبکه‌های عصبی, شبکه‌های عصبی بازگشتی ‎ARN)‏ ‏ترانسفورمرها و مدل‌های دنبالهبه دنباله استفاده می‌کنند. ۷1| طیفگ سترده لعاز ‎dal,‏ از جمله دستیللنمجایی چتباتها تسجزيه و تحليل حساساتهرلئن ظلتبر انه هاىإجتماعى طبقه بندى لسند. تسرجمه ماشينى بازياب إطاهاتو موارد ميكر دارد. هدف ير كسرهنثكافبيزبازإنسازو دركماشي ريستو لمکان‌سرقرارواتباط و تعاملزثر بيرإفسازو كسامييوتر را فساهم‌می‌کسد.

صفحه 134:
‎٩‏ چگونه می توان یادگیری عمیق را در کارهای ۷1۴ به کار برد؟ ‏یادگیری عمیق با دستیابی به نتایج پیشرفته در وظایف مختلف !۰ پردازش زبان طبیعی (1!) را متحول کرده است. مدل‌های یادگیری عمیق می‌توانتد به طور موزثر الگوهای پیچیده» سلسله مراتب و نمایش‌های بيجيده را از داده‌های متن خام بیاموزند و آنها را قادر به درک» تولید و دستکاری ‏زبان انسانی می‌کنند. در اینجا برخی از کاربردهای کلیدی یادگیری عمیق در الا آورده شده است: ‏۱. طبقه‌بندی متن: مدل‌های یادگیری عمیق. مانشد شبکه‌های عصبی کانولوشن (/2۱۷)) و شبکه‌های عصبی باززگشتی (ل۱» می‌توانند برای کارهای طبقهبندی متن استفاده شونداین مدلها می توانتد ویژگی های معنی دار را از متبن بياموزتد و اسناد راجه دسته هایی مانند تجزیه و تحلیل ‏احساسات. طبقه بندی موضوع. تشخیص هرزنامه و طبقه بندی اسناد طبقه بندی کنند. ‏۲ شناسایی موجودیت های نامدار (0]]): مدل های یادگیری عمیق, به ویژّه مدل های برچسب گذاری دنباله مانند فیلدهای تصادفی شرطی ‎BILSTMS) 45,b yo LSTMs , (CRFS)‏ در شتاسایی و استخراج موجودیت های نامدار از متن. مانتد نام افراده سازمان هاء مکان ها و سایر ‏نهادهای خاص موثر هستند.

صفحه 135:
‎٩‏ ادامه..؟ ‏۳ ترجمه ماشینی: مدل های یادگیری عمیق, به وییه مدل های دنباله به دنبلله مانند شبکه های عصبی بازگشتی (!۷(]) و ترانسفورمرهاء یه طور قلبل توجهی سیستم های ترجمه ماشیتی را بهبود بخشیدهاند. لین مدل‌ها می‌تونند با نگاشت دنبلههای ورودی به دنباله‌های خروجی, توجمه متن را ‏از یک زبان به زبان ديكر بياموزند. ‏۴ تحلیل احساسات: مدل‌های یادگیری عمیق. از جمله [0|لا31] .| الا]ن). و ترانسفورمرهاء می‌توانند با گرفتن اطلاعات معنایی و موضوعی در متنء تحلیل احساسات را انجام دهند. آن‌ها می‌توانند یاد بگیرند که متن رابه دسته‌های احساسات مثبت. منفی یا خنشی طبقه‌بندی کنند و تجزیه و تحلیل ‏احساسات را در نظارت بر رسانه‌های اجتماعی, بررسی‌های مشتریان و نظركاوى امكان بذير كنند. ‏شتی ‎)6٩(۷/(‏ و ترانسفورمرهاء می توانتد ‎ ‏۵ تولید متن: مدل های یادگیری عمیق. مانند شبکه های ‏توانند برای کارهایی مانند خلاصه سازی متن, تولید دیالوگ, تولید داستان و تکمیل متن استفاده شوند. ‎ ‏۶ پاسخ به سوال: مدل‌های یادگیری عمیق. مانند نمایش‌های رمزگذار دو جهته مبتنی بر توجه از تراسفورمرها (86]۸۲) و انواع آمن؛ عملکرد قبل‌توجهی در وظایف پاسخگویی به سوال به دست آورده‌ند. این مدل‌ها می‌توانند زمینه سوال را درک کنند و با استفاده از پیش‌آموزش در مقیاس ‏بزرگ بر روی مجموعه‌های متنی, پاسخ‌های دقیقی را ايجاد كنند. ‎

صفحه 136:
۰ مفهوم شبکه های عصبی بازگشتی برای ۷1۴ را توضیح دهید. شبکه‌های عصبی بازگشتی ‎)1٩۱۷/1(‏ دسته‌ای از شبکه‌های عصبی هستند که معمولاً بای وظلیف پردازش زبان طبیعی (11) به دلیل توانلیی آنها در مدیریت داده‌های متوالی استفاده می‌شوند. 1۷/۷آها به گونه‌ای طراحی شده‌اند که وابستگی‌ها و روابط را در داده‌های متوالی با پردازش داده‌های ورودی به صورت متوالی و در عین حال حفظ وضعیت حافظه داخلی؛ ثبت کنند. ایده اصلی پشت ۱( ها این است که آنها اطلاعات را از یک مرحله به مرحله بعدی منتقل می کنند و به آنها اجازه می دهد تا زمینه و تاریخچه ‎٠‏ تجزیه و تحلیل احساسات, ترجمه ماشینی و ‎ ‎ ‏دنباله ورودی را در نظر بگیرند. این کار باعث می شود که آنها به ویژه برای کارهایی مانند مدل سازی ز ‏تولید دنباله مناسب باشند. ‎ ‏مژلفه کلیدی یک ‎Jlasl RNIN‏ بازگشتی است که شبکه را قادر می‌سازد تا حللت پنهانی را حفظ کند که اطلاعات مراحل قبلی را در بر می‌گیرد. در هر مرحله زمانی. ‎1٩۱۷/۷‏ یک بردار ورودی می گیرد که معمولاً یک کلمه یا یک کاراکتر را نشان مى دهد. و آن را با حالت پنهان مرحله قبل ترکیب می کند تا خروجی ایجاد کند و حالت پنهان رابه روز کند. سپس حللت پنهان به روز شده در مرحله زمانی بعدی استفاده می شود و یک حلفه بازخورد ‏برگشتی ایجاد می کند.

صفحه 137:
+ ادامه.... از نظر ریاضیء محاسبات در یک لا|۱۷٩]‏ را می توان به صورت زیر بیان کرد ‎ht = f (Wxh * xt + Whh * ht-1 + b)‏ در اين معادله, ۱۸| حالت پنهان را در مرحله زملنی ‏ نشان می‌دهد. 26 بردار ورودی در مرحله زمانی ) است. ؟ یک تلبع فعال‌سازی غیر خطی است (به عنوان منال. سیگموید یا ‎tanh‏ ۷۷/0 و ‎Wh‏ ماتریس‌های وزن هستند و 0 یک بردار بایاس. ماهیت بازگشتی ‎٩۱۷!‏ ها به آنها اجازه می دهد تا وابستگی ها را در طول های دلخواه داده های متوالی مدل کنند. با این حال. ‎٩۱۷‏ های استاندارد از مشكل محوكراديان رنج می برند. جایی که گرادیان ها به طور تصاعدی در طول دنباله های طولانی کاهش می یابند. و درک وابستگی های طولائی را بای شبكة خشيار عى كتده برای پرداختن به این موضوع. انواع مختلفی از ‎٩۱۷۷‏ ها توسعه داده شده است. يكى از انواع محبوب. شبكه حافظه كوتاه مدت طولانى(511/1-]) است كه سلول هاى حافظه تخصصى و مكانيسم هاى دروازه اى را برای حفظ و کنترل بهتر جریان اطلاعات در طول زمان ترکیب می کند.نوع دیگر واحد بازگشتی دروازه دار (3811)) است که معماری را با ترکیب دروازه های فراموشی و ورودی 911۷ .ساده می کند. لین گونه‌های پیشرفته از | /*]هاء مانتد 51| و ‎ols as GRU‏ توانایی بهبود یافته‌شان در جذب وایستگی‌های طولانی‌مدت و کاهش مشکل محو گرادیان . به طور گسترده در وظایف ۱۱.۳ مورد استفاده قرار گرفته‌ند. این مدلها کمک قابل توجهی به موفقیت یادگیری عمیق در ۴ال و ستون فقرات بسیاری از مدل‌های زبانی پیشرفته. تولیدکننده‌های متن و مدل‌های مبتتی بر دنباله شدهاند

صفحه 138:
۵۱. چالشهای موجود در آموزش شبکه های عصبی بازگشتی برای ۱۷1-۴ چیست؟ آموزش شبکه های عصبی بازگشتی (۵۱۷!۷)برای وظایف پردازش زبان طبیعی ‎oe (NLP)‏ تولند چندین چالش را ایجاد کند. در اینجا چند چا متداول در هنگام آموزش ‎٩۸۷8!‏ برای طأل] توضیح داده شده است: ۱. محو و انفجار گرادیان: ‎٩۱|‏ ها می توانند مشکل محو یا انفجارگرادیان داشته باشند. در دنباله‌های طولانی» گرادیان‌ها می‌توانند به طور تصاعدی کاهش با رشد کنند. که انتشار و بادگیری اطلاعات در وایستگی‌های بلندمدت را برای شبکه دشوار سىكند لين مستله مىتولند منجر به آموزش تابايدار شود و توانایی مدل را برای درک الگوهای معنادار مختل کند. ۲ مدل‌سازی وابستگی بلندمدت: | ۱۷*آهابه دلیل تحلیل رفتن اطلاعات در طول زمان. محدودیت‌هایی در جذب وابستگی‌های بلندمدت دارند. زملنی که فاصله زمانی قابل توجهی بین وابستگی‌های مربوطه وجود داشته باشد. !۱۷ آها ممکن است برای اتصال مزثر آن‌ها مشکل داشته باشند. این محدودیت می تواند بر کارهایی که نیازمند درک و ایجاد دنباله های طولائی منسجم هستند تأثیر بگذارد. ۳مدم وجود موازی سازی: 3۱1۷ ها دنبله های ورودی را به صورت متوالی پردازش می کننده که موازی سازی را در لول آموزش محدود مى كند. اين امر مى تواند منجر به کاهش زمان آموزش در مقایسه با شبکه های عصبی پیشخور شود. ماهیت متوللی ‎1٩۸1/۷‏ ها باعث می شود که آنها برای آموزش مبتنی بر لا3). که بر عملیات موازی متکی است. کارایی کمتری داشته باشند. ۴. محدودیت‌های حافظه: ل۱۷٩/هلیی‏ که نیز به حافظه زیادی دارند. مانند 1514 و ‎GRU‏ برای آموزش نسبت به حافظه محدودیت دارند. بهویژه زمانی که با دنباله‌های طولانی یا اندازه واژگان بزرگ سروکار دارند. محدودیت های حافظه می تولند اندازه دسته یا طول دنبلله قلبل پردازش را محدود کند و بر سرعت آموزش و ظرفیت کلی مدل تأثير بكذارد.

صفحه 139:
۵ ادامه..؟ ۵ پراکندگی داده ها و کلمات خارج از واژگان: مجموعه داده های ‎Ale] NLP‏ پراکندگی داده ها را نشان می دهند» جایی که بسیاری از ترکیبات یا عبارات کلمات در داده های آموزشی وجود محدودی دارند. علاوه بر اين. مواجهه با کلمات خارج از واژگان (060۷)) که کلماتی هستند که در طول آموزش دیده نمی شوند. می تولند چللش هلیی برای ‎6٩۱۷‏ ها ایجاد کند. برخورد با کلمات نادره موضوع های ناد یک چالش همیشگی در وظایف لا است. و تعميم موثر به رتست و & بيش برازش و تعميم: | الاا8] هاء مانند ساير مدل هاى يادكيرى عميق. مى توانند مستعد بيش برازش باشند. جايى كه آنها به جاى يادكيرى الكوهاى قلبل تعميم. نمونه هاى آموزشى را حفظ مى كنند. لين اصر به ويثه در وظايف الا به دلیل ماهیت گسترده و پیچیده داده های زبان چللش برانگیز است. تکنیک‌های منظم‌سازی؛ مانند حذف تصادفى و كاهش وزن: مىتواندد براى کاهش بیش برازش استفاده شوند. ۷ ادازء مجموعه آموزشی و هربته-اشیه نوسی, جمع [وری سجموعه حلده های برچ گذاری شده بزرگ برای وظلیف ۱11۳ می نی کران و وق كير باشد يه خصوص زماتى که حاشیه نویسی اتسالی موردثیاز است. دلد‌های آموزشی محدوه می‌تولند عملکره مدل‌های !۲۱۱۷ را مختل کند و هرى بيجيدكى و تنوع كامل زبان را جالشبرانكيز كند. برداختن به اين جالش ها اغلب شامل تركيبى از اصلاحات معمارى. تكنيك هاى منظم سازى. تنظيم دقیق هایپرپارامتر و روش های بهینه سازی بيشرفته أست. تكنيك حلدى مانند برش كراديان» استرائؤى هلى مقداردهى اوليه وزنء و استفاده از جلسازى كلمات ازرييش آموزش دينه تيزمى تواتدد به كاهش برخى از جالش ها در هنكام آموزش | الا!8] براى وظايف 8الا] كم كنند.

صفحه 140:
۲ مفهوم مدل های دنباله به دنباله چیست؟ مدل‌های دنبلله به دنبلله (56012560) دسته‌ای از شبکه‌های عصبی هستند که برای وظایفی استفاده می‌شوند که شامل تبدیل یک دنبلله ورودی به یک دنباله خروجی است. این مدلها به ویژه در وظایفی مانند ترجمه ماشینی, خلاصه سازی متن: تولید گفتگو و تشخیص گفتار موثر هستند. ایده اساسی پشت مدل‌های ۹60/2560 استفاده از دو شبکه عصبی بازگشتی ۷۱۷/۷ است: یک رمزگذار ‎٩۸|‏ و یک رمزکشا ل(۱٩.‏ رمزگذار دنبلله ورودی را پردازش می کند. معمولاً دنبلله ای با طول متغیر از نشلنه ها (به عنوان مثال. کلمات یا کاراکترها)» و آن راجه یک نملیش با طول ثلبت به نام بردر زمینه یا برار فکر تبدیل می کند. بردار زمینه اطلاعات دنبله ورودی را محصور می کند و به عنوان یک نمایش فشرده از ورودی عمل می کند. رمزکشا ۴1 برازمینه رابهعنوان ورودی می کیرد وبا بيش بينى نشانه يعدى در دنبلله در هر مرحله زملنى: دنبلله خروجى را كام به كام وليف می ‎RNN Les yo, iS‏ معمولاً با یک توکن خاص مقداردهی می‌شود که نشان‌دهنده شروع دنبلله است و نا زمانی که به یک نشانه پایان دنبلله خاص يا حداكثر طول از بيش تعريفشده پرسد. توكنها را توليد مىكند.

صفحه 141:
‎OY‏ ادامه...؟ ‏در طول آموزش. مدل 5602560 برای به حداقل رساندن تفاوت بین دنباله خروجی پیش‌بینی‌شده و دنباله خروجی هدف آموزش داده می‌شود. این کار معمولاً با استفاده از تکنیکی به نام معلم اجباری انجام می شود. که در آن دنباله هدف واقعی به عنوان ورودی به رمزگشا ۱ در طول آموزش ارائه مى شود. در استنباط يا آزمون. مدل دنباله خروجى را يك توکن یکبار بر اساس پیش‌بینی‌های قبلی خود تولید می‌کند. ‏مدل‌های 602560 را می‌توان با استفاده از انواع مختلف ‎LSTM als RNN‏ (حافظه کوناه‌سدت طولانی) یا 391 (واحد باز گشتی دروازه‌ای) پیاده‌سازی کرد. ۱۷/۷ های رمزگذار و رمزگشا می توانند چندین لایه داشته باشند و می توانتد دو جهته باشند که به اطلاعات اجازه می دهند در هر دو جهت جلو و عقب جريان داشته باشند. این کار مدل را قادر می سازد تا زمینه و وابستگی های بیشتری را در دنباله ورودی درک کند. ‏مدل های ۹602560 زمینه "لا رابه میزان قلبل توجهی پیش برده و در کارهای مختلف موفق بوده اند. آنها عملکرد قلبل توجهی را در ترجمه ماشینی نشان داده اند جایی که یک دنباله ورودی در یک زبان به دنباله خروجی در زبان دیگر تبدیل می شود. مدل‌های 5602560 برای خلاصه‌سازی متن نیز استفاده شده‌اند. جایی که خلاصه‌ای مختصر از اسناد یا مقالات طولانی‌تر ایجاد می‌کنند. علاوه بر این. مدل‌های 5602560 در سیستم‌های گفتگو و وظایف تشخیص گفتار برای تولید پاسخ یا رونویسی زیان گفتاری به متن نوشتاری استفاده شده‌اد. ‎ ‏به طور کلی. مدل‌های 56012560 در درک رابطه بین دنبلههای ورودی و خروجی موثر بوده و امکان تولید دنبله و قابلیت‌های تبدیل قدرتمند. یه ‎

صفحه 142:
۲ چگونه می توان از مدل ‎cle‏ دنباله به دنباله در ترجمه ماشینی استفاده کرد؟ مدل‌های دنبلله به دنبلله (6602560) به طور گسترده برای کارهای ترجمه ماشینی به کار گرفته شده‌لند و پیشرفت‌های قلبل توجهی را نسبت به رویکردهای سنتی نشان ددهند. در اینجا تحوه استفاده از مدل های 56012560 در ترجمه ماشینی آورده شده استه ۱.آماده سازی داده ها: برای آموزش یک مدل ‎٩6012560‏ برای ترجمه ماشینی؛ یک پیکره موازی. متشکل از جفت جملات در زبان مبداً و ترجمه های متناظر آنها در زبان مقصد مورد نیاز است. لین مجموعه داده به عنوان داده آموزشی عمل می کند. جایی که جملات زبان مبدأ دنيلله هاى ورودی هستند و جملات زبان مقصد دنباله های خروجی هستند. ۲ معماری رمزگذار-رم زگشا: مدل 560/2560 از یک رمزگذار ‎٩۱|‏ و یک رمزگشا ‎RNN‏ تشکیل شده است. رمزگذار جمله ورودی را در زبان مبدأ بردازش مىكند و يك بردار زمينه با طول ثلبت توليد مىكند كه اطلاعات جمله مبدأ را محصور می‌کند. رمزگشا بردار زمیته را به عنوان ورودی مى كيرد و جمله خروجى را در زبان مقصد. کلمه به کلمه تولید مى كند. ۲ جاسازی کلمات: برای نشان دادن کلمات در دنبلله ورودی و خروجی. استفاده از جاسازی کلمات رایج است. جاسازی‌های کلمه. نمایش‌های برداری متراکمی از کلمات هستند كه اطلاعات معدليى و متنى را به‌دست می‌آورند. لین اطلاعات را می توان از قمل روی مجموعه های بزرگ آموزش داد مابه طور مشترک با مدل 5602560 در طول آموزش یاد گرفت. ۴.آموزش: در طول آموزش, کار مدل 56025600 به حداقل رساندن تفاوت بین دنبلله خروجی پیش بینی شده و دنله خروجی هدف بهینه شده است. این کار معمولاً با استفاده از یک نوع تلیع زیان آنتروپی متقابل انجام می شود. این مدل با استفاده از معلم اجباری آموزش داده می شودء جابی که دنل هدف واقمی به عنولن ورودی به رمزگشا 30] در هر مرحله زماتیآرکه می شود

صفحه 143:
۳ ادامه...؟ ۵. استنتاج: پس از آموزش, می توان از مدل ‎٩602560‏ برای ترجمه با تولید دنبلله خروجی کلمه به کلمه استفاده کرد. در طول استنتاج؛ مدل يك جمله زبان مبدأ رابه عنوان ورودی می گیرد آن را با رمزگذار پردازش می کند و از رمزگشا برای تولید جمله ترجمه شده در زبان مقصد استفاده می کند. فرآیند رمزگشایی را می توان با استفاده از تکنیک هایی مانند جستجوی پرتو برای کشف چندین ترجمه ممکن انجام داد ۶مدیریت کلمات ناشتاخته: مدل های 560/2560 با کلمات خارج از واژگان (/060۷)) که در طول آموزش دیده نمی شوند» مبارزه می کنند. برای مدیریت کلمات ناشناخته. تکنیک‌هایی مانند جایگزینی آنها با نشانه‌های خاص, استفاده از نمایش‌های سطح کاراکتر یا استفاده از ابزارهای خارجی مانند واحدهای زی رکلمه(مانند رمزگذاری جفت بایت یا 561۱]6]66|666) را می‌توان به کار برد. ۷ مدیریت جملات طولانی: مدل‌های 5602560 به دلیل حافظه محدود مدل و مشکل محوگرادیان می‌توانند در مدیریت جملات بسیار طولانی با مشکل مواجه شوند. تکنیک‌هلیی مانتد مکانیزم‌های توجه. که به مدل اجازه می‌دهد در طول رمزگشلیی بر بخش‌های مختلف جمله ورودی تمرکز کند. می‌تواند به رفع این مشکل و بهبود کیفیت ترجمه برای جملات طولائی کمک کند. مدل‌های 5602560 نتایج چشمگیری را در ترجمه ماشینی نشان داده‌لند و ترجمه‌های دقیق و روان بین زبان‌های مختلف را ممکن می‌سازند. آنها همچنین با تکنیک های پیشرفته مانند مکانیزم های توجه (به عنوان مثال, مدل محبوب ترانسفورمر) گسترش يافته اند تا کیفیت ترجمه را پیشتر افزایش دهند و جملات طولائی تر را به طور موثرتر مدیریت کنند

صفحه 144:
۴ مفهوم مکانیزم های توجه در ‎٩۷1.8‏ را توضیح دهید. نیزم‌های توجه در بردازش زبان طبیعی (".أل) مکانیزم‌هلیی هستند که شبکه‌های عصبی را قادر می‌سازند تا بر روی بخش‌های مختلف دنبلله ورودی در طول پردازش داده‌های متوللی تمرکز کنند. این مکانیزم ها به طور قلبل توجهی عملکرد وظلیف مختلف ا!. از جمله ترجمه ماشیتی: خلاصه سازی متن» پاسخ به سوال و تجزیه و تحلیل احساسات را بهبود بخشیده اند مکانیزم توجه به یک مدل اجازه می دهد تا به طور انتخابی به بخش های خاصی از دنبلله ورودی توجه کند و وزن یا اهمیت متفاوتی رابه بخش های مختلف اختصاص دهد. مکانیزم‌های توجه به جای تکیه بر وضعیت پنهان نهایی رمزگذاره ان توانایی را برای مدل فراهم می‌کتند که ارتباط یا اهمیت مراحل زمانی یا کلمات مختلف را در دنباله ورودی در نظر بگیرد در اینجا یک نمای کلی از نحوه عملکرد مکانیزم های توجه در سطح بالا آورده شده است: ۱ رمزگذار: دنباله ورودی توسط یک شبکه رمزگذار پردازش می شود که می تواند یک !۷ (مانند ایا (3)) یا یک مدل مبتنی بر ترانسفورمر باشد. رمزگذار دنبلله ای از حللت های پتهان را تولید می کند. که در آن هر حللت پنهان یک مرحله زمانی یا کلمه خاص را در دنبلله ورودی نشان می دهد. أن مى ۲ امتبازات توجه: مکانیزم های توجه یک جزء اضافى به نام امتیازات توجه با وزن توجه را معرفی صی کنند. این | ازها بر اساس حالت های پنهان رمزكذار و بردار زمينه محاسبه مى شوند بردار زمينه به عنوان خلاصه يا نمایشی از حالات پتهان تولید شده توسط رمزگذار عمل می کند. ۳ وزن توجه: امتياز توجه معمولاً با محاسبه شباهت بين بردار زمينه و هر حالت بنهان رمزكذار به دست مى آيد. براى محاسبه اين شباهت مى توان از روش هاى مختلفى استفاده کرد مانند ضرب داخلی. شباهت کسینوس یا تلبع سازگاری آموخته شده. سپس نمرات توجه برای به دست آوردن وزن های توجه که مجموع آنها ۱ است. نرمال می شوند.

صفحه 145:
+ doll OF ۴ جمع وزنی: وزن توجه به حللت های پنهان رمزگذار اعمال می شود تا جمع وزنی محاسبه شود. که در ن هر حالت پنهان در وزن توجه متناظر آن ضرب می شود. این جمع وزنی آغلب به عنوان بردار زمینه یا نمایش حضوری نامیده می شود. ۵ رمزگشاهبردار زمینه سپس به رمزگشا ارسال می شود که می تواند یک ‎1٩۱۷!‏ با یک مدل مبتنی بر ترانسفورمر باشد. ومزگشا از بردارزمینه همرله با حالت های پنهان خود برای تولید دنباله خروجی استفاده می کند و به بخش های مختلف دنباله ورودی بر اساس ارتباط یا اهمیت آنها توجه می کند. مکانیزم توجه به مدل اجازه می دهد تا به صورت پویا بر روی قسمت های مختلف دنبلله ورودی در طول رمزگشایی تمرکز کند. با دادن توانلیی مدل برای توجه به اطلاعات مربوطه. مکانیزم‌های توجه می‌توانند تواناییی مدل را برای گرفتن وابستگی‌های طولانی‌مدت. مدیریت دنباله‌های ورودی با طول‌های مختلف و تولید خروجی‌های دقیق‌تر و روان‌تر بهبود بخشند. یکی از اناع محبوب مکانیزم توجه. "توجه به خود" یا "توجه به محصول مقیاس شده" نامیده می شود که معمولا در مدل های میتنی بر ترانسفورمر استفاده می شود. توجه به خود به هر کلمه یا نشانه در دنبلله ورودی اجازه می دهد تابه همه کلمات دیگر در یک دنبلله توجه کند و رولبط بین بخ های مختلف دنباله را به تصویر بکشد. به طور كلى: مکانیزم‌های توجه به عنوان ابزار قدرتمندی ‎NLP jo‏ ثابت شده‌اند که با ارائه توانایی به مدل برای تمرکز انتخابی بر روی اطلاعات مهم در دنباله ورودی, عملکرد وظایف مختلف دنباله به دنباله را افزایش می‌دهند.

صفحه 146:
۵ چند معماری محبوب برای طبقه بندی متن نام ببرید. چندین معماری محیوب برای طبقه بندی متن وجود دارد که در کارهای مختلف الا موفق بوده اند. در اینجا برخی از معماری های رایج مورد استفاده توضیح داده می شوند: ۱ شبکه های عصبی کانولوشنال (/(2۱۷)): ((2۱) ها که در اصل برای پردازش تصویر طراحی شده لند. برای طبقه بندی متن نیز به کار میروند. در طبقه‌بندی متن, کنولوشن‌های ۱ بعدی روی متن ورودی اعمال می‌شوند تا الگوهای محلی و ترکیب‌های ویژگی رابه تصویر بکشند. سپس خروجی‌های کانولوشن برای طبقه‌بندی به لايدهاى تمام متصل وارد می‌شوند. !62۱۷ ها در درک ویژگی های محلی. کارآمد و موثر هستند و در کارهایی مانند تجزیه و تحلیل احساسات و طبقه بندی موضوعات موفق بوده اند ۲ شبکه های عصبی بازگشتی ‎alail>) LSTM ajy as le RNN «RNN)‏ کوتاه مدت طولانی) و ‎oly) GRU‏ باز گشتی دروازه دار)؛ به طور گسترده ای برای کارهای طبقه بیدی متن استفاده هد اند. 30131] ها برای ثبت وابستگی های متوالی در متن با حفظ -افظه داخلی متاسب هستدد آنها متن رابه صورت متوللی پردازش می کنند و اجازه می دهند اطلاعات از کلمات قبلی به کلمات بعدی منتقل شود. !1/1 ها در کارهایی مانند تجزیه و تحلیل احساسات. طبقه بندی متن و شناسایی موجودیت نامدار موفق بوده اند ۳ ترانسفورمرها: ترانسفورمرها به عنوان یک معماری قدرتمند برای وظایف طبقه‌بندی متن ظاهر شده‌اند. در درجه اول به دلیل موفقیت مدل‌هایی مانند 7 (نمایش رمزگذار دوطرفه ترانسفورمر). ترانسفورمرها برای درک روابط بین کلمات یا نشانه های مختلف در دنباله ورودی به مکانیزم های خودتوجهی متکی هستند. آنها در درک وابستگی های دوربرد عالی هستند و در کارهایی مانند تجزیه و تحلیل احساسات. پاسخ به سؤال و استنتاج زبان طبیعی به نتایج پیشرفته ای دست يافته اند

صفحه 147:
+ doll OO ‎ola Jus F‏ سلسله مراتبی: مدل های سلسله مراتبی برای به تصویر کشیدن ساختار سلسله مراتبی متن طراحی شده لنده جلیی که اسناد از پاراگراف هاء جملات و کلمات تشکیل شده اند. این مدل‌ها متن را در سطوح مختلفی از جزئیات پردازش می‌کنند و امکان درک اطلاعات محلی و عموسی را فراهم می‌کنند. معماری های سلسله مراتبی. مانند شبکه های توجه سلسله مراتبی (۳۱۵) و 151 های سلسله مراتبی. در کارهایی مانند طبقه بتدی استاد و تجزیه و تحلیل احساسات در اسناد طولائی موفق بوده اند ‏۵ مدل‌های جمعی: مدل‌های جمعی, پیش‌بینی‌های چند مدل پلیه را برای بهبود عملکرد طبقه‌یندی ترکیب می‌کنند. لین مدل را می توان با استفاده از هر ترکیبی از معماری های ذکر شده در بالا ایجاد کرد. روش‌های جمعی مانتد 0399109 يا 00059 می‌توانند قدرت پیش‌بینی کلی و توانایی تعمیم را افزایش دهند. یا ترکیب نقاط قوت چندین مدل. مدل‌های جمعی اغلب به عملکرد بهتری نسبت به مدل‌های جداگانه دست می‌بایند. ‏شایان ذکر است که انتخاب معماری به وظیفه خاص» مجموعه داده و متابع موجود بستگی دارد. آزمایش و تنظیم دقیق, اغلب برای تعیین بهترین معماری برای یک مساله طبقه بتدی متن مورد نیاز است. علاوه بر این, مدل‌های از پیش آموزش‌دیده‌شده» ‎MULMFIT & BERT. GPT sists‏ محبوبیت پیدا کرده‌اند.زیرا نمایش‌های قدرتمندی را ارائه می‌دهند که می‌توانند برای کارهای طبقه‌بندی متن خاص با داده‌های برچسب‌گذاری شده محدود به‌خوبی تنظیم شوند

صفحه 148:
‎OF‏ مفهوم تجزیه و تحلیل احساسات 9 ‎NLP‏ چیست؟ ‏تجزیه و تحلیل احساسات. که به عنوان نظر کاوی نیز شناخته می‌شود. زیرشاخه‌ای از پردازش زبان طبیعی (1!) است که هدف آن احساسات‌یا نظرات بیان شده در یک متن خاس است. لین کار شامل استفلده از تکتیک های محاسیانی برای طبقه بندی خودکار احصساساته متن به عنوان مشستء منفی با عتتی است. ‎ ‏مفهوم تجزیه و تحلیل احساسات حول درک و استخراج اطلاعات ذهنی از متن. مانند احساسات. نگرش هاء نظرات و ارزیلبی ها می چرخد. هدف تجزیه و تحلیل احساسات ابراز شده توسط افراد نسبت به یک موضوع؛ محصول, خدمات یا رویداد خاص است. ‏در اینجا مروری بر فرآیند تجزیه و تحلیل احساسات آورده شده است: .پیش پردازش متن: متن ورودی ابتدا برای حذف نهیز و اطلاعات نامربوط پیش پردازش می شود. لین کار ممکن است شامل مراحلی ماتند کوچک کردن ‏حروف. نشانه‌سازی (تقسیم کردن متن به کلمات یا نشانه‌های جداگلنه»,. حذف کلمات توقف (کلمات رایج "است" که کمک زیادی به احساسات نمی‌کنند) و مدیریت خاص کاراکترها یا علائم نگارشی باشد. ‎ ‏۲طبقه بندی احساسات: هنگامی که متن از قبل پردازش شد. به دسته های احساسات طبقه بندی می شود. دسته‌های احساسات رایج مثیت؛ منفی و خنثی هستند. اما برخی رویکردها از مقوله‌های دقیق‌تر یا حتی مقیاس احساسات پیوسته استفاده می‌کنند. ‏۳ استخراج ویژگی: برای طبقه بندی احساسات ویژگی های مرتبط از متن استخراج می شود. این ویژگی‌ها ممکن است شامل کلمات. ‎M-GPAM‏ (دنبالة پیوسته از 6 کلمه)» برچسب‌های بخشی از گفتاره ساختارهای نحوی یا سیر ویژگی‌های زبانی باشد که اطلاعات احساسی را در خود دارند. تکنیک‌های استخراج ویژگی‌ها می‌توانتد بر اساس رویکرد مورد استفاده متفاوت باشند. مانند کیسه‌ی کلمات, ۰۲۴-1]0۴ جاسازی‌های کلمه (مانند ۷۷۵۲۵2۷/6۰ 6 يا نمایش های پیشرفته‌تر واژه‌ای ساختاربندی شده(مانند ‎(BERT. GPT‏ ‎

صفحه 149:
‎OF‏ ادامه...؟ ‏۴. تکنیک‌های تجزیه و تحلیل احساسات: تکنیک‌های مختلفی را می‌توان برای تجزیه و تحلیل احساسات به کار بردء از جمله روش‌های مبتنی بر قانون. الگوریت‌های یادگیری ماشین ‎Naive Bayes sl)‏ ماشین‌های بردار پشتیبان یا جنگل‌های تصادفی). و اخير رویکردهای یادگیری عميق مانند شبکه‌های عصبی بازگشتی (18 )یا مدل های مبتنی بر ترانسفورمر.روش‌های مبتنی بر قانون برای تخصیص امتیزات احساسی به کلمات یا عبارات به قوانین با وژگان دست‌ساز متکی هستند, در حالی که مدل‌های یادگیری ماشینی و یادگیری عمیق از داده‌های آموزشی برچسبگذاری شده برای طبقه‌بندی احساسات یاد می‌گیرند. ‎ ‏۵ ارزیایی و معیارهای عملکرد: عملکرد مدل‌های تجزیه و تحلیل احساسات با استفاده از معیارهای مناسب مانند دقت. صحت. نرخ یادآوری. -۴1 6 یا سطح زیر منحنی مشخصه عملکرد گیرنده (۵()2-36067 بسته به نیازهای خاص ارزیلبی می‌شود. وظیفه ارزیلیی معمولاً روی مجموعه داده‌های برچس بگذاری شده انجام می‌شود. جایی که احساس متن قبلا توسط حاشیه‌نویس‌های انسانی حاشیه‌تویسی شده است. ‏تجزیه و تحلیل احساسات کاربردهای عملی مختلقی دارد. از جمله نظارت بر رسانه های اجتماعی. مدیریت شهرت برند, تجزیه و تحلیل بازخورد مشتری. تحقیقات بازار و سیستم های توصیه محور. لین کار بینش های ارزشمندی را در مورد افکار عمومی و گرلیش های احساسات ارلثه می دهد وبه كسب و كارها و سازمان ها لين امکان را می دهد تا تصمیمات مبتتی بر ذاذه اتخاذ کنند و احساسات مشتری نسبت به محصولات یا خلمات خود را درک کنند. ‎

صفحه 150:
۷ چگونه می توان یادگیری عمیق را در تجزیه و تحلیل احساسات به کار برد؟ یادگیری عمیق به طور موفقیت آمیزی برای تجزیه و تحلیل احساسات به کار گرفته شده است وبه نتلیج پیشرفته ای در وظايف مختلف دست يافته است. مدل‌های یادگیری عمیق توانایی یادگیری خودکار نمایش‌های سلسله مراتبی از داده‌های متن خام. درک الگوها و وابستگی‌های پیچیده را دارند که آنها را رای تجزیه و تحلیل احساسات مناسب می‌سازد. در اینجا چند روش برای استفاده از یادگیری عمیق یرای تجزیه و تحلیل احساسات آورده 1. شبکه های عصبی کانولوشنال ‎«CNN‏ 6۷ هاء که در اصل برای پردازش تصویر طراحی شده اند برای طبقه بندی متنء از جمله تجزیه و تحلیل احساسات. نیز به کار می روند. در این رویکرد.پیچیدگی‌های ۱ بعدی بر روی ورودی متن اعمال می‌شوند تا الگوها و ویژگی‌های محلی را به تصویر بکشند. سپس خروجی‌های کانولوشن برای طبقه‌بندی احساسات به لایههای تمام متصل وارد می‌شوند. 211) ها در یادگیری الگوهای محلی کارآمد هستند و در وظایف تحلیل احساسات موفق بوده اند ۲ شبکه های عصبی بازگشتی (۷(۷(: ‎LSTM agg ay slo RNN‏ (حافظه کوناه مدت طولانی) و ‎sole) GRU‏ بازگشتی دروازه دار)؛ به طور گسترده ای در تجزیه و تحلیل احساسات استفاده شده اند. [(۷(*] ها متن رابه صورت متوللی پردازش می کنند و وابستگی های زملنی بین کلمات را ثبت می کنند. این شبکه ها قادر به درک وابستگی های دوربرد و اطلاعات متنی هستند. مدل های مبتنی بر ‎RNN‏ عملکرد قوی در وظایف طبقه بندی احساسات نشان داده اند ۳مکانیزم‌های توجه: مکائیزم‌های توجه برای کارهای تجزیه و تحلیل احساسات به کار گرفته شده است تا توانایبی مدل را برای تمرکز بر کلمات یا عبارات مهم در متن ورودی اقزایش دهد. مکانیزم‌های توجه به مدل اجازه می‌دهند تا اهمیت کلمات مختلف یا بخش‌هایی از دنبلله ورودی را در طول طبقه‌بندی به صورت پویا بسنجید. مدل‌های مبتنی بر توجه با توجه به بخش‌های آموزنده‌تر متن» عملکرد بهتری را در تحلیل احساسات نشان داده‌اند.

صفحه 151:
۷ ادامه...؟ ۴ مدل‌های مبتنی بر ترادسفورمر: مدل‌های ترانسفورمره منند 210 (نمایش رمزگذار دوطرفه ترانسفورمر) و انواع آن. تجزيه و تحليل احساسات و ساير وظایف "!۱ را متحول کرده‌اند. ترانسفورمرها برای به تصویر کشیدن روابط بین کلمات در دنباله ورودی به مکانیزم های توجه-به-خود متکی هستند. مدل‌های ترانسفورمر از پیش آموزش‌دیده را می‌توان بر روی وظایف تجزیه و تحلیل احساسات با داده‌های برچسبگذاری شده تنظیم کرد وبه دلیل تونلیی آنها در درک اطلاعات متنی و درک معنایی, به نتاب پیشرفته دست یافت: ۵ یادگیری ‏ انتقالسی و مدل‌های از پیش آموزش‌دیده: مدل‌هاییادگیری عمیسق آموزش‌دیده بر روی مجموعه داده‌های مقیاس بزرگ و از بش آموزش‌دیده‌شده در وطلیف عمومی درک زبان می‌توانند بای تجزیه و تحلیل احساسات مورد استفادهقرار گیرند با نتقال ویژگی‌های آموخته‌شدهبه وظلیف تجزيه و تحليل احساسات. مدلها مىتوانتد از دانش عمومی زبان رمزگذاری‌شده در مدل‌های از پیش آموزش‌دیده بهره ببند ین رویکرد در بهبود عملکرد طعسیی اعتلت موی با هت رت کتری شنم بسترم ‎Jap Pe‏ ۶ مدل‌های جمعی و 611۳9 518 : مدل‌های یادگیری عمیق را نیز می‌توان از طریق تکنیک‌های جمعی یا معماری‌های 016719 513 برای بهبود عملکرد تجريه و تعليل اعساسات تركيب كرد روشهاى جمعى: بيكربيتىهلى مدل هاى متعدد را براى تضميم كيرى نهايى تركيب ع ىكندد واز تدوع مدلهاى ‎Stacking aus. alate‏ شامل آموزش جندين مدل و استفاده از مدل ديكرى براى يادكيرى نجوه تركيب بهترين بيش بينى هاى أتها سد رويكردهاى يادكيرى عميق در تجزيه و تحليل احساسات نتليج قلبل توجهى را نشان داده لند وبه نتليح بيشرفته اى دست يافته اند با لین حال. توجه به لين نکته مهم است که موفقیت مدل‌های یادگیری عميق اغلب به در دسترس بودن مجموعه داده‌های برچسب‌دار بزرگ و منابع محاسباتى كافى براى آموزش اين مدل‌های پیچیده بستگی دارد.

صفحه 152:
۸ مفهوم مدل های مولد در بادگیری عمیق را توضیح دهید. مدل‌های مولد در یادگیری عمیق, مدل‌هایی هستند که برایتولید نمونههای جدید طراحی شد‌اند که شبیه به داده‌های آموزشی هستند که بر روی آنها آموزش دیده‌اند لین مدل‌ها توزیع احتمال اساسی داده‌های آموزشی را باد می‌گيرند و سپس از آن دلنش برای تولید نمونه‌های جدیدی که شبیه داده‌های اصلی هستند استفاده می‌کنند. هدف مدل‌های مولد ین است که الگوها و ساختار موجود در داده‌های آموزشی رابه تصویر بکشند وبه آن‌ها اجازه دهند نمونه‌های جدیدی تولید کنند که ویدگی‌های متابهی دارند. اين مدل ها به ويزه در کارهایی مانند سنتز تصویره تولید متن» سنتر گفتار و داده اقزایی مقید هستند, دو نوع اصلی از مدل های مولد در یادگیری عمیق وجود درد ۱. رمزگذارهای خودکار متغیر (۷//۸25): ۷/۸۶ ها مدل های تولیدی هستند که مفاهیم رمزگذار خودکار و استنتاج تغییرات را ترکیب می کنند. رمزگذارهای خودکار از یک شبکه رمزگذار تشکیل شده لند که داده های ورودی را در یک فضای پنهان با ابعاد پایین تر ترسیم می کند و یک شبکه رمزکشا که داده های اصلی را از فضای پنهان بازسازی مى كند. ۵۴//ها مدل‌سازی احتمالی را با فرض اینکه متفیرهای پنهان از یک توزیع خاص پیروی می‌کنند, معمولاً یک توزیع گاوسی معرفی می‌کنند. با آموزش ۷/۵ برای رمزگذاری و رمزگشایی داده ها توزيع زيربنليى داده هاى آموزشى را ياد مى گیرد و به آن اجازه می دهد نمونه های جدیدی از توزیع آموخته شده توليد كند.

صفحه 153:
۸ ادامه.... ۲ شبکه های مولد تخاصمی ‎GAN)‏ 3/۸(۷) ها مدل های مولد هستند که از دو شبکه عصبی تشکیل شده اند: یک شبکه مولد و یک شبکه متمايزكر. شبكه مولد نمونه هاى مصنوعی تولید می کند. در حللی که شبکه متمایزگر سمی می کند بین نمونه های واقعی و مصنوعی تمليز قلئل ث شبکه های مولد و متمایزگر با هم به شیوه ای رقابتی آموزش می بینند. هدف مولد تولید نمونه هایی است که از نمونه های واقمی قابل تشخیص نیستند. در حللی که هدف متمایزگر طبقه بندی صحبح نمونه های واقمی و مصنوعی ااست. از طریق لین فرآیند آموزش خصمانه. ملد به تدریج تونلیی خود را برای تولید نمونه های واقعی بهبود می بخشد. هر دو مدل ۷۸۹۴ و ‎LU GAN‏ قوت و ضعف خود را دارند. ۷/۸۴ ها تمایل به تولید خروجی های متنوع تری دارند و مدل سازی احتمالی صریح توزیع داده ها را ارائه می دهند. از سوی دیگر. ‎go Lo GAN‏ توانند نمونه های بسیارواقعی تولید کنند اما به طور صریح توزیع احتمال را مدل نمى ‎as‏ مدل های مولد کربردهای متعددی از جمله توليد تصوير. تولید ویدوه تولید متن و سنتز داده ه درند. ین مدلهابرای ایجاد تصاوير واقعى. تولید متن خلاقانه. تولید داده های مصنوعی برای داده افزایی؛ و حتی در ایجاد ویدیوهای دیپ فیک استفاده شده اند. به طور كلى. مدلهاى مولد در يادكيرى عمیق, فرصت‌های جدیدی را بای ایجاد نمونههای مصنوعی شبیه داده‌های آموزشی باز کرده‌اند و تولید خروجی‌های جدید و واقعی را در حوزه‌های مختلف ممکن می‌سازند.

صفحه 154:
‎٩‏ چند مدل مولد محبوب را نام ببرید. ‏چندین مدل مولد محبوب وجود دارد که توجه قلبل توجهی رایه خود جلب کرده و نتلیج چشمگیری در حوزه های مختلف به دست آورده اند. در اینجا برخی از مدل های مولد شناخته شده آورده شده است: ‏۱ رمزگذارهای خودکار متفیر (۷//25): ۷/۵۸۴ ها مدل های مولد پرکاربرد هستند. آنها مفاهیم رمزگذارهای خودکار و استنتاج تغییرات را ترکیب می کنند. ۷۸۹۶ ها در تولید تصاویر واقعی مانند تولید تصاویر جدید از چهره هاء ارفام و اشیاء موفق بوده اند. نمونه هایی از مدل های مبتنی بر ۷۸۴ عبارتند از [2)63۸01] (شبکه متخاصم مولد عمیق) و ‎VQ-VAE (Vector Quantized Variational Autoencoder)‏ ‏۲ شبکه های مولد تخاصمی (3/۵(5)): 3/۵) ها محبوبیت فوق العاده ای در زمینه مدل سازی مولد به دست آورده اند. ‎Se fold Lo GAN‏ شبکه مولد ويك شبكه متمايزكر هستند كه با يكديكر رقلبت مى كنند. 61 ها نتليج قلبل توجهی در تولید تصاویره متن و حتی موسیقی به دست آورده ند. برخی از مدل های قابل توجه مبتنی بر 2/1 عبارتند از ‎ProGAN , DCGAN. CycleGAN. StyleGAN‏ ‏۳ مدل های مولد مبتنی بر ترانسفورمر: ترانسفورمرها که در ابتدابرای وظلیف دتبلله ای معرفی شدند. برای مدل سازی میلد نیز به کار گرفته شدند. مدل‌هایی مانند 3۲) (ترانسفورمر از پیش آموزش‌دیده مولد) و 31-2 توانایی تولید متن منسجم و مرتبط با متن را نشان داده‌اند. آنها برای کارهایی مانند تولید متن, سیستم های گفتگو و ترجمه زبان استفاده شده اند

صفحه 155:
‎٩‏ ادامه.... ‎PIXEIRNN , PixelRNN: PixeICNN , PixelCNN +‏ مدل های مولدی هستند که تصاویر را پیکسل به پیکسل تولید می کنند.آنها توزیع احتمال شرطی هر پیکسل را با توجه به پیکسل های اطراف آنن مدل می كنند. اين مدل ها به نتايج جشمكيرى در توليد تصاوير با وضوح بالا ‏دست يافته اند. ‎ ‏۵. ماشین های عمیق بولتزسن (080): 2081 ها مدل های مولد هستند که ساختار لایه ای عمیق از واحدهای تصادفی دارند. این مدلها برای یادگیری بدون نظارت استفاده شده اند و نتایج امیدوارکننده ای را در تولید تصاویر واقمی و مدل سازی توزیع های پیچیده نشان داده اند. ‏۶ رمزگذارهای خودکار متخاصم (۵/5): ۵/ها عناصر ۷۸۵۴ و ‎GAN‏ را ترکیب می کنند تا یک نملیش نهفته از توزیع داده ها را بیاموزند. آنها علاوه بر زیان بزسازی رمزگذار خودکار. یک زیان خصمانه را نیز شامل می شوند که امکان کنترل بهتر بر روی نمونه های تولید شده را فراهم می کند. ‏۷ مدل‌های مبتنی بر جریان: مدل‌های میتنی بر جریان. مانند استنتاج متغیر با جریان‌های عادی (02۶ال) و ۹6۵3۱۱۷۷۴ (حفظ حجم با ارزش ‎a‏ و ‎ee a‏ ‏تصاویر و مدل‌سازی توزیع‌های پیچیده داده. نشان داد‌ند ‏نها تنها چند نمونه از مدل های مولد محبوب هستند. زمینه مدل‌سازی مولد. ‎agg‏ و به سرعت در حال تکامل است و مدل‌ها و دتم در حال ظهوو هستند. هر مدل تقاط قوت و شعف خود رز دار و تخاب مذل مولد به وظیفه خاص, نوع دده و کیفیت خروجی مورد نظر مستگی ‎ois ‏رفت‌های جدید ‎

صفحه 156:
‎Fe‏ مفهوم یادگیری تقویتی چیست؟ ‏یادگیری تقویتی (۴) شاخه ای از یادگیری ماشین است که با یادگیری سیاست های تصمیم گیری بهینه از طریق تعامل با یک محیط مرتبط است. از روشی که انسان ها و حیوانات از بازخوردها و پاداش ها یاد می گیرند به منظور به حداکثر رساندن پاداش های تجمعی درازمدت الهام گرفته شده است. ‎ ‎ ‏در یادگیری تقویتی. یک عامل یاد می گیرد که در یک محیط تصمیمات متوالی بگیرد تا مفهوم پاداش تجمعی را به حداکثر برساند. عامل با انجام اقداملتی با محیط در تعامل است و محیط با بازخورد در قللب پاداش یا جریمه پاسخ می دهد. هدف عامل لین است که سیاست بهینه را بیاموز برداری از وضعیت ها به اقدامات - که پاداش تجمعی مورد انتظار را در طول زمان به حداکثر می رساند. ‎ ‏انقشه ‎ ‏عناصر كليدى يادكيرى تقويتى عبارتند از ‎.١‏ عامل: موجودى كه با محيط در تعامل است و از آن درس می گیرد. عامل بر اساس وضعیت فعلی خود اقداماتی را انجام می دهد و پاداش یا جریمه هایی را به عنوان بازخورد دریافت مى کند. ‎ ‏۲ محیط: سیستم یا دنیای بیرونی که عامل در ن فعالیت می کند. این عنصر می تواند هر سیستم شبيه سازى شده يا دنياى واقعى با وضعيت هاء اقدامات و پاداش ها باشد. ‏۳ حالت: حالت بیانگر وضعیت یا پیکریندی فعلی محیط است. معمولاً به عنوان یک مشاهده با مجموعه ای از متفیرهای مشاهده شده نشان داده می شود. ‏۴ عمل: عمل تصمیمی است که غامل در پاسخ به حللت مشاهده شده اتخاذ می کند. اقدامات می تولند پیامدهای کوتاه مدت داشته باشد و بر وضمیت های بعدی تأثیر بگذارد.

صفحه 157:
۰ ادامه..؟ ۵. پاداش: پاداش یک سیگنال بازخورد اسکالر است که توسط محیط پس از انجام یک عمل به عامل ارائه می شود. نشان دهنده مطلوبیت یا کیفیت اقدام انجام شده در راستای دستیایی به اهداف عامل است. ۶ سیاست: سیاست. استراتی با رفتاری است که عامل برای اتتخاب اقداماتی که یک حللت داده می شود دفیال می کند. وضمیت ها را یه اقدامات ترسیم می کند و فرآیند تصمیم گیری عامل را هدایت می کند ۷ تبع ارزش: تبع ارزش پاداش تجمعی موردانتظاری که یک عامل می توند از یک جفت حللت یا حالت-عمل خاص به دست آورد را تخمین می زند این عمل به ارزیابی کیفیت حالات یا اقدامات مختلف کمک می کند و قرآیند یادگیری عامل را هدایت می کند. لگوریتم های یادگیری تقویتی از بازخورد دریانتی در قالب پاداش برای به روز رسانی سیاست عامل و بهبود تصمیم گیری در طول زمان استفاده می كنتد. اين كار معمولاً با استفاده از روش‌هایی مانتد یادگیری (). روش‌های مونت کارلو» یادگیری تفاوت زملنی یا یادگیری تقویتی عمیق با شبکه‌های عصبی انجام می‌شود. یادگیری تقویتی در حوزه های مختلفی از جمله روباتیک, بازی, وسايل نقليه خودران. سيستم هاى توصيه و مديريت متابع وغيره كاريرد بيدا كرده است. با يادكيرى از آزمون و خطاء يادكيرى تقويتى عوامل را قادر مى سازد تا استراتزى هاى بهينه را در محيط هاى بيجيده و نامطمئن بيابند.

صفحه 158:
۱ چگونه می توان یادگیری عمیق را با یادگیری تقویتی ترکیب کرد؟ یادگیری عمیق را می توان با یادگیری تقویتی ترکیب کر تا قابلیت های عوامل 181 را در مديريت محيط هاى بيجيده وما ابعاد بالا افزليش دهد. لین ترکیب یه عنوان یادگیری عمیق (01) شناخته می شود. -21*1] از قدرت یادگیری ویژگیهای شبکه‌های عصبی عمیق برای مدیرست ورودی‌های حسی خام. استخراج ویژگی‌های مفید و تصمیم‌گیری آگاهانه استفاده می‌کند. در اينجا مؤلفه ها و رویکردهای کلیدی مورد استفاده در ترکیب یادگیری عمیق با یادگیری تقویتی آورده شده است: ))2۱(!( ‏شبکه های عصبی عمیق. معمولاً شبکه های عصبی کانولوشن‎ || Deep Q-Networks (DQN): Deep Q-Networks.\ ‏برای تقریب تلبع ارزش عمل (عملکرد (6) در یادگیری () استفاده می کند. شبکه عمیق وضعیت فعلی را به عنوان ورودی می گیرد و مقادیر 6۵ را برای‎ ‏تمام اقدامات ممکن خروجی می دهد. /00] با موفقیت در بازی هایی مانند ۸3۲ اعمال شده است. جایی که از داده های پیکسل خام به عنوان‎ ‏ورودی استفاده می شود.‎ ۲ روش های گرادیان سیاست: به جای تخمین مقادیر 64 روش های گرادیان سیاست مستقیماً تابع سیاست را بهینه می کنند. شبکه های عصبی عمیق. که آغلببه عنولن شبکه های سیاست نامیده می شهنده برای پاراسترسازی سیاست استفاده می شوند. شبکه حللت فعلی رابه عتوان ورودی می گیرد و احتمال انتخاب اقدامات مختلف را خروجی می دهد. الگوریتم‌های یادگیری تقویتی مانند ‎٩۴۱۱۱۴0‏ يا ۴۵۱۱6۷ ۳۳۵۶۱۳۵۱ (580) 00811۳12۵110۳ را می‌توان با شبکه‌های عمیق برای یادگیری سياست‌ها برای کارهای پیچیده استفاده کرد

صفحه 159:
۶۱ ادامه..؟ ؟. روشهاى عامل-نقاد: روشهاى عامل-نقاد. مزاياى هر دو رويكرد ارزش‌محور و سیاست‌محور رایا هم ترکیب می‌کنند. نها دو شبکه را حفظ می کنند - یک شبکه عامل که اقدامات را بر اساس سیاست انتخاب مي کند و یک شبکه نقاد که تلبع ارزش را تخمین می زند. شبکه عامل با استفاده از روش های گرادیان سیاست به روز می شود در حللی که شبکه نقاد با استفاده از وش های یادگیری ۲0 یا مونت کارلوبه روز می شود. شیکه‌های عصبی عمیق را می‌تون بهعنوانتقریب کننده عملکرد هم برای شبکه‌های عامل و هم بای شبکه‌های نقاد استفاده كرد ۴ یادگیری نقویتی مبتنی بر مدل: یادگیری عمیق را می توان برای یادگیری پویایی یا مدل انتقال محیط در یادگیری تقویتی مبتنی بر مدل استفاده کرد. سپس می توان از مدل آموخته شده برای برنامه ریزی و تصمیم گیری استفاده کرد. شبکه های عصبی عمیق را می توان برای تقریب تلبع انتقال حالت یا تابع پاداش استفاده کرد و به عامل اجازه می دهد تا ستاریوهای احتمالی را شبیه سازی و کشف کند. ۵ یادگیری نقویتی سلسله مراتبی:یادگیری عمیق می تواند يادكيرى سياست هاى سلسله مراتبی را فعال کند. جایی که سیاست های سطح بالات یادگیری سیاست های سطح پایین را هدلیت می کنند. شبکه های عصبی عمیق را می توان برای مدل سازی ساختار سلسله مراتبی و یادگیری ویژگی در سطوح مختلف انتزاع. بهبود کارایی و مقیاس پذیری الگوریتم های ‎٩‏ استفاده کرد. یادگیری تقویتی عمیق نتایج قابل توجهی در حوزه های مختلف از جمله بازی.روبتیک رانندگی مستقل و پردازش زبان طبیعی به دست آورده است. با لین حال. آموزش مدل‌های عمیق ‎٩‏ می‌تواند به دلیل نیازهای محاسباتی بالا و نیا به مبادلات دقیق اکتشاف و بهرمبرداری چالش‌برانگیز باشد. با لین وجود. ‎allay DRL‏ یادگیری مستقیم از ورودی‌های حسی خام. مدیریت داده‌های پیچیده و بدون ساختار و دستیابی به عملکرد در سطح انسانی در وظایف چالش برانگیز را تشان داده است.

صفحه 160:
۲ مفهوم گرادیان سپاست را توضیح دهید. گرادیان های سیاست دسته ‎jl gl‏ الگوریتم های یادگیری تقویتی هستند که به طور مستقیم تلبع سیاست را برای یادگیری سیاست های تصمیم گیری بهینه ,بهینه می کنند. برخلاف روش‌های مبتنی بر ارزش که تابع ارزش-عمل یا تبع ارزش-حالت را تخمین می‌زنند.روش‌های گرادیان سیاست بر بهینه‌سازی مستقیم پارامترهای سیاست برای به حداکثر رساندن پاداش تجمعی مورد انتظار تمركز می‌کنند. سیاست در یادگیری تقویتی به استراتژی یا رفتاری اطلاق می شود که عامل برای انتخاب اقداماتی که یک حالت داده می شود دنبال می کند. در روش‌های گرادیان سیاست: یک سیاست پارامتری شده توسط یک تقریب‌کننده تلبم. اغلب یک شبکه عصبی عمیق, نشان داده می‌شود که حللت رابه عنوان ورودی می‌گیرد و احتمالات انتخاب اقدامات مختلف را خروجی می‌دهد. پارامترهای شبکه سیاست به طور مکرر به روز می شوند تا عملکرد سياست بهبود يابد. هدف روش هاى كراديان سياست يافتن سياست بهينه اى است كه باداش تجمعى مورد انتظار را در طول زمان به حداكثر مى رساند. لين كار معمولاً از طروق ‎GSI‏ سمودی به دست می‌یده جانی که بلرلمترهاق شيكة بسياست مر حيت كراد يك تابع هدف. كه اغلب به عتوان كراديان سياست ناميده مى شودء به روز می شوند. تلبع هدف مورد استفاده در روش‌های گرادیان سیاست معمولاً بر اساس پاداش تجمعی مورد انتظار است که با عواملی مانند مزايا یا احتمالات. وزن‌گذاری می‌شود.

صفحه 161:
۲ ادامه.... مراحل کلیدی درگیر در روش های گرادیان سیاست به شرح زیر ۱. مسیرهای جمع آوری: عامل با پیروی از سیاست جاری و جمع آوری مسیرها که دنبلله ای از حللت ها اقدامات و پاداش ها هستند. با محیط تعامل می کند. در طول هر مرحله زمانی» عامل با استفاده از شبکه سیاست. اقدامی را بر اساس وضعیت فعلی انتخاب می‌کند. ۲. محاسبه بازده یا مزیت: بازده . پاداش تجمعی است که از یک دنبلله اقدام حللت خاص به دست می‌آید. که نشان می‌دهد عملکرد چقدر خوب بوده است. از طرف دیگره مزیت را می توان محاسبه کرد که نشان می دهد یک عمل چقدر بهتر یا بدتر از میانگین پاداش مورد انتظار در آن حالت است. ۲محاسبه گرادیان سیاست: گرادیان سیاست بر اساس مسیرهای جمع آوری شده و بازده یا مزلیا محاسبه می شود. گرادیان تخمینی است از چگونگی تغییر پارامترهای شبکه سیاست یرای افزایش پاداش تجمعی مورد انتظار. گرادیان معمولاً از طریق روش هایی مانند تخمین نسبت درستنمایی یا برآوردگر تابع امتیاز به دست می آید. ؟: به روز رسانى بارامترهاى سياست: بارامترهاى شبكه سياست يا استفاده از كراديان سياست به روز مى شوند. مرحلهبهروزرسانی. پارمترها را در جهتی تنظيم مىكند كه باداش تجمعى مورد انتظار را افزايش مىدهد. لين كار معمولاً از طريق كراديان صعودى تصادفى يا ساير تكنيكهاى بهينةسازى انجام می‌شود.

صفحه 162:
۲ ادامه.... هد تكرار: فرآيند جمع آورى مسيرهاء محاسبه كراديان ها و به روز رسانى بارامترهاى سياست به طور مكرر تكرار مى شود. عامل ‎ale a‏ با محیط, جمع آوری تجربیات جدید و به روز رسانى شبكه سياست يراى بهبود عملكرد خود در طول زمان ادامه مى دهد. روشهلى كراديان سياست جندين مزيت مانند توانايى مديريت فضاهاى كنش بيوسته. بهينهسازى مستقيم سياست. و بتانسيل مديريت داددهاى ورودى ا ابعاد بالا از طريق شبكدهاى عصبى عميق را ارلئه مىدهند. آنها با موفقيت در طيف كسترده اى از وظليف يادكيرى تقوبتى. از جمله روباتيكه بازی کردن, و سیستم های کنترل اعمال شده اند با این حال. روش‌های گرادیان سیاست آموزشی می‌تونند به دلیل وریانس بالای تخمین‌های گرادیان و یز بهمبادلات دقیق اکتشاف و بهرمبرداری چالش‌برانگیزباشند. تکنیک‌های مختلفی مانند تولبع پایه. شکل‌دهی پاداش, و منظم‌سازی آنتروپی: براى بهبود يايدارى و هم كرايى روشهاى گرادیان سیاست استفاده می‌شوند.

صفحه 163:
۳ چالشهای موجود در آموزش عوامل یادگیری تقوبتی با استفاده از بادگیری عمیق چیست؟ آموزش عوامل یادگیری تقویتی ‎RL)‏ با ستفاده از یادگیری عمیق می تواند چندین چالش را ایجاد کند. این چالش‌ها به دلیل ترکیبی از پیچیدگی وظایف ‎Sy clad RL‏ حالت و عمل و شبکه‌های عصبی عمیق درگیر به وجود می‌آیند. برخی از چالش های کلیدی در آموزش عوامل ‎]٩1-‏ با استفاده از یادگیری عمیق عبارتند از ۱ کارلیی نمونه: الگوریتم های ‎٩1‏ اغلب به تعداد زیادی تعامل با محیط برای یادگیری سیاست های بهینه نیاز دارند. الگوریتم‌های عمیق ‎٩‏ به‌ویه. می‌توانند از نظر نمونه ناکارآمد باشند. زیرا آموزش شبکه‌های عصبی عمیق با داده‌های محدود می‌تولند منجر به بیش برازش شود. جمع آوری داده های کافی برای آموزش مدل های -*] عمیق می توائد زمان بر و از نظر محاسباتى كران باشد. ۲ تعادل اکتشاف و بهره برداری: عوامل ‎٩‏ نیاز به كاوش در محيط دارند ا استراتزى ها و اقدامات جديدى را کشف کنند که می تولندبه پاداش های بالتر منجر شود. ایجاد تعادل بین اکتشاف و بهره برداری بسیار مهم است. زيرا عوامل نبايد در سياست هاى غيربهينه كير کنند. مدل‌های ‎Sere RL‏ ممکن است یرای کاوش موثر مشکل داشته باشند. زیرا این سیاست می‌تواند به دلیل فضاهای عملی يا ابعاد بالا و پیچیده در بهینه محلى كير كند. ۲تخصیص اعتبار: عوامل 1 با چالش نسبت دادن اعتبار یا سرزنش به اقدامات انجام شده در دنباله ای از وضعیت ها و اقدامات روبرو هستند. الگوریتم‌های ‎٩1‏ عمیق باید به درستی باداش‌ها با جریمه‌های دریففتی را به اقاماتی که منجر به ی تتایج شله است نسبت هند ان مفکل تخصیص اعتبار با افق هاى زمانى طولانی و پاداش های تاخیری چالش برانگیزتر می شود

صفحه 164:
۳ ادامه...؟ ۴ شکل‌دهی پاداش و پاداش‌های پراکنده: در بسیاری از وظایف -. پاداش‌ها ممکن است پراکنده باشند. به این معنی که عامل فقط به ندرت بازخورد دریلفت می‌کند. پاداش‌های پراکنده می‌توانند یادگیری را چالش‌برانگیزتر کنند. زیرا ممکن است عامل برای درک اينكه كدام اقدامات منجر يه نتليج مثبت يا منفى شده است. دچار مشکل شود تکنیک‌های شکل‌دهی پادلش و طراحی ساختارهای پاذاش مناسب برای هدایت موتر فرآیند یلدگیری» ضرورى هستند. ال. بويليى غير ايستابى و محيط: محيط ‎RL‏ مى تولند بوياى غير ايستايى را نشان دهد.به لين معنى كه سياست بهينه ممكن است در طول زمان تغيير كند. الكوريتم هاى ‎Sane RL‏ بايد يا جنين تفیبراتی سازگار شوند و به طور مداوم سیاست را به روز کنند. عامل بین عامل و محیط همچنین می تولند چللش هایی مانتد مشاهده پذیری جزثی, تصادفی و دینامیک وابسته به زمان را ایجاد کند. بیش برازش و تعمیم: شبکه های عصبى عميق مورد استفاده در ‎RL‏ می توانند مستعد بیش برازش شهند به خصوص زملنی که دلده های آموزشی محدود. أست. بيش برازش مى تولئد منجربه تعميم ضعيف شود جابى كه سياست أموخته شده بر روی نانه های آمورسی به عوی عما مى كند اما در تعميم يه عرقعيت على ناديده ناكلم است. تكبيك هابى مائند منظم سازى حاده افزابى و بلدكيرى انتقاقى براى بيبود تعميم در ‎]٩1‏ عديق استفاده مى شود /. بيجيدكى محاسباتى: روش هاى .81] عميق مى توانند از نظر محاسباتى كران باشند وبه منابع محاسباتى قلبل توجهى نياز داشته باشند. آموزش شبكه هاى عصبى عميق با وظايف ‎RL‏ 9 مقياس بزرىك مى تواند زمان بر باشد و ممكن است به محاسبات توزيع شده يا سخت افزار تخصصى نياز داشته باشد. برداختن به اين جالش ها اغلب به تركيبى از بيشرفت هاى الكوريتمى. معمارى شبكه هوشمند. استراتؤى هاى اكتشاف و مهندسى ياداش موثر نياز دارد. تحقيقات و بيشرفتهاى مداوم در زمينه 141 عميق با هدف مقابله با بين جالشها و امكان ‎RL Lule gal‏ كه مىتواندد وظايف بيجيده و واقعبينانه را الك عد لحا ‎ye‏

صفحه 165:
۴ مفهوم یادگیری خود نظارتی در یادگیری عمیق چیست؟ یادگیری خود نظارتی تکنیکی در یادگیری عمیق است که در ن یک مدل نمایش یا ویژگی‌ها را از ددههای بدون برچسب بدون نیازبه برچسب‌های صریح تولید شده توسط انسان می‌آموزد. از ساختار یا الگوهای ذاتی در داده ها برای ایجاد وظایف جانشین استفاده می کند که فرآیند یادگیری را هدایت می کند. با يادكيرى از مقادير زيادى از دده های بدون برچسب, هدف یادگیری خود نظارتی به دست آوردن ویژگی های مفیدی است که می تواند سپس به وظایف تحت نظارت پایین دستی منتقل شود. ایده کلیدی در پشت یادگیری خود نظارتی. طراحی وظایف بهانه‌ای است که به عنوان وظایف کمکی نیز شتاخته می‌شود. که به مدل نیاز درد تا بخش‌های خاصی از داده‌های ورودی را پیش‌بینی یا بازسازی کند. این وظایف بهانه با اعمال تبدیل یا تفییر به داده های بدون برچسب و استفاده از داده های اصلی به عنوان هدف یا مرجع ایجاد می شوند. سپس مدل یاد می‌گیرد که اطلاعات مربوطه در داده‌ها را در نمایش‌های خود رمزگذاری کند تا کار بهان‌ای را به طور مؤثر انجام دهد. برخی از تکنیک هاى رايج مورد استفاده در یادگیری خود نظارتی عبارتد از ۱. رمزگذارهای خودکار: رمزگذارهای خودکار .مدل های شبکه عصبی هستند که هدف آنها بازسازی داده های ورودی از یک ویژگی فشرده است. آنها از یک رمزگنار تشکیل شده‌اند که داده‌های ورودی را به یک فضای پنهان با ابعاد پایین‌تر نگاشت می‌کند و یک رمزگشا که ورودی را از نمایش پنهان بازسازی می‌کند. با آموزش رمزگذار خودکار بر روی داده های بدون برچسب. مدل یاد می گیرد که ویژگی ها یا الگوهای برجسته در داده ها را درک کند.

صفحه 166:
۴ ادامه..؟ ۲ یادگیری متضاد: یادگیری متضاد شامل یادگیری ویژگی بابه حداکثر رساندن شباهت بین جفت های متبت (مثال های مشلبه) وبه حداقل رساندن شباهت بین جقت های متفی (مثال های غیر مشلبه) است. با ایجاد جفت نسخه های افزوده شده از نقطه داده یکسان و تضاد آنها با نسخه های شده سایر نقاط داده مدل ياد مى كيرد كه نمونه های مشابه را نزدیکتر در فضای ویژگی های آموخته شده جاسازی کند. ۲پیش‌بینی زملنی یا مکلنی: در لین رویکرد. مدل برای پیش‌بینی آینده یا بخش‌های گمشده یک دنبلله يا تصوير آموزش داده مىشود. به عنوان مثال» با توجه به دنباله ای از فریم ها در يك ويديو. مى توان مدل را براى بيش بینی فریم بعدی آموزش داد. با یادگیری پیش‌بینی ساختارزمانی یا مکانی ناده‌هاء مدل تمایش‌قای معناداری را بادست می‌آورد. یادگیری خود نظارتی به ویه در سناریوهایی مقید است که داده های برچسب گذاری شده کمیاب یا گران است. با استفاده از مقادیر زیادی از داده‌های بدون برچسب در دسترس, یادگیری خود نظارتی می‌توند به پیش‌آموزش شبکه‌های عصبی عمیق و مقداردهی اولیه آن‌ها با ویژگی‌های مفید کمک کند. سپس این مدل‌های از پیش آموزش‌دیده را می‌وان بر روی مجموعه داده‌های برچسب گذاری‌شده کوچک‌تر برای وظلیف نظارت‌شده خاص تنظیم كرد که منجر به بهبود عملکرد و هم‌گرایی سریعتر می‌شود. یادگیری خود نظارتی نتایج امیدوارکننده‌ای را در حوزه‌های مختلف از جمله بینایی کامپیوتر: پردازش زبان طبیعی و تشخیص گفتار نشان داده است. یادگیری ویژگی‌های قدرتمند از داده‌های بدون برچسب فراوان. یادگیری انتقللی را تسهیل می‌کند و یادگیری را در بسیاری از وظلیف یادگیری ماشیتی یادگیری ویژگی‌های قدرتمند از داده‌ها: فراوان. یادگیری انتقللی را تسهیل می‌کند و یادگیری را در بسیاری از وظلیف یادگیری ما |

صفحه 167:
‎FO‏ بادگیری خود نظارتی چگونه به آموزش مدل های یادگیری عمیق با داده های برچسب گذاری ‏شده محدود کمک می کند؟ ‏زمانى كه داده هاى برجسب كذارى شده محدود هستند.یادگیری خود نظارتی نقش مهمی در آموزش مدل های یادگیری عمیق ایفا مى كند. ان چالش با استفاده از مقادیر زیادی از داده های بدون برچسب برای یادگیری ویژگی های مفید. به چالش کمبود داده می پردازد. در اینجا نشان داده شده است که چگونه بادگیری خود نظارتی به آموزش مدل های یادگیری عمیق با داده های برچسب گذاری شلم محدود کمک می کنده ‏۱ پیش‌آموزش با داده‌های بدون برچسب: یادگیری خود نظارتی به مدل‌ها اجازه می‌دهد تا در مجموعه داده‌های بدون برچسب در مقیاس بزرگ از قبل آموزش داده شوند. در طول لین مرحله پیش‌آموزشی, مدل یاد می‌گیرد که ویژگی‌ها و الگوهای معنی‌داری را در داد‌هابدون نیاز یه برچسب‌های صریح درک کند. با استفاده از داده‌های بدون برچسب فراوان. مدل می‌تولند نمایش های قلبل تعمیمی را به دست آورد که اطلاعات مفیدی را در مورد دامنه ‎ ‏داده رمزگذاری می‌کند. ‏۲ آموزش انتقللی: پس از پیش‌آموزش با یادگیری خود نظارتی. می‌توان از مدل پیش‌آموزش‌شده به‌عنوان نقطه شروعی برای وظایف نظارت‌شده خاص استفاده کرد. تمایش‌های آموخته‌شده از یادگیری خود نظارتی ویژگی‌های سطح بالا و اطلاعات معنایی را به تصویر می کشد که می‌تواند برای طیف ‎& ‎ ‎ ‏وسیمی از وظایف پایین‌دستی مفيد باشد با انتقال وزن هاى از بيش آموزش داده شده به وظيفه هدفه مدل مى تواند خود را با مجموعه خوبی از هاى اوليه. مقداردهى اوليه كند و نياز به آموزش نظارتى كسترده را از ابتدا كاهش دهد. ‏۳. استخراج ویژگی‌نویژگی های آموخته شده از یادگیری خود نظارتی می تواند به عنوان استخراج کننده ویژگی استفاده شود. به جاى استفاده از كل مدل از پیش آموزش دیده. فقط از لایه های بايين قر يا لايه هاى خاص مى توان برای استخراج ویژگی ها از داده های برچسب دار استفاده کرد. این ویژگی‌ها سپس می‌تانند به یک طبقه‌بندی کننده جداگانه یا مدل پایین‌دستی برای آموزش روی داده‌های برچسب‌گذاری شده محدود وارد شون. با استفاده از ویژگی‌های غنی آموخته‌شده از طریق یادگیری خود نظارتی, مدل می‌تولند بهتر تحمیم دهد و حتی با داده‌های برچسبگذاری شده محدود به عملکرد بهترى دست يابد

صفحه 168:
۶۵ ادامه...؟ ۴داده افزایی و متظم سازی : یادگیری خود نظارتی اغلب شامل تکنیک های داده افزایی است. که در آن تغییر شکل های مختلف بر روی داده های بدون برچسب اعمال مى شود اين داده هاى افزوده صى تولند براى آموزش مدل و افزليش استقامت به تفييرات مختلف و نوبز در داده ها استفاده شود هنكامى كه يا دادههاى برجسبكذارى شده محدود تركيب مىشود. يادكيرى خود نظارتى بدعنوان شكلى از منظمسازى عمل مىكتد. از بيش برازش جلوكيرى مىكند و قابليتهاى تعميم مدل را بهبود مى يخشد. ۵ یادگیری فعال و يادكيرى نيمه نظارتى: يادكيرى خود نظارتى را مى توان با يادكيرى فعال یا راهبردهاى يادكيرى نيمه نظارقى تركيب كرد ما از داده هاى برجسب كذارى شده محدود استفاده موثرى كرد. با استفاده ازويثكيهاى مدل از ييش آموزش ديده: مدل مى تواند به طور فعال آموزنده ترين تمونه ها را از مجموعه بدون برجسب براى حاشيه نويسى انتخاب كند. لين كار به انتخاب هوشمندلنه نمونه هليى براى برجسب كذارى. بهينه سازى استفاده از منابع محدود يرجسب كذارى و ببهبود عملكرد مدل كمك مى كند. با استفاده از قدرت يادكيرى خود نظارتى. مدلها مىتواندد از مقادير زيادى دادههاى بدون برجسب در دسترس براى يادكيرى ويزكىهاى مفيد بهره ببرند. سپس این ویژگی‌ها می‌تونند منتقل شوند, تنظیم شوند یا ه‌عنون استخراحکننده ویژگی براى كارهاى تحت نظارت خاص مورد استفاده قرار گیرند و به مدل‌های یادگیری عمیق اجازه می‌دهند حتی با داده‌های برچسب‌گذاری شده محدود به خوبی عمل کنند. یادگیری خود نظارتی به عنوان یک ابزار ارزشمند برای پر کردن شکاف بین در دسترس بودن دادههاى برجسبكذارى شده و نياز به آموزش در مقياس بزرك در برنامههاى يادكيرى عميق عمل مىكند.

صفحه 169:
۶ مفهوم ترانسفورمر در بادگیری عمیق را توضیح دهید. ترانسفورمرها نوعی معماری مدل یادگیری عمیق هستند که محبوبیت قلیل توجهی به دست آورده لند وبه نتایج پیشرفته ای در وظلیف مختلف پردازش زبان طبیمی (1۱۳ ست بافته ند این مسماری در مقاله "نوچ تمام چیزی لت که شما نیز درید" توسط واسوانی و همکاران در سال ۲۰۱۷ مسرفی شدند. ایده کلیدی پشت ترانسفورمرها استفاده از مکانیزم های خود توجهی است که به مدل اجازه می دهد اهمیت موقمیت ها با کلمات مختلف در دنباله ورودی را هنگام پیش بینی اندازه گیری کند. این مکانیزم توجه به مدل اجازه می‌دهد تا بر زمینه مرتبط تمرکز کند و وایستگی‌های دوربرد وا ب‌طور موثر درک کند. معماری ترانسقورمر از دو جزء اصلی تشکیل شده است: رمزگذار و رم یک دنباله ورودی را می گیرد و آن را پردازش می کند تا مجموعه ای از خصایص یا ویژگی هلیی را تولید کند که اطلاعات متنی را درک می کند. دتباله ورودی به توکن های جداکلنه تقسیم می شود که در ویزگی های برداری پیوسته جاسازی شده اند. سپس این توکن‌های جاسازی شده از میان ۱ رمزگذار: رمز پشته‌ای از لایه‌های یکسان عبور داده مىشوند كه معمولاً به عنوان لايههاى رمزكذار شناخته مىشوند. هر لايه رمزكذار از دو لایه فرعی تشکیل شده است: یک ر می‌سازد تا وایستگی‌های بین موقعیت‌های مستقل اعمال می‌کند. مکانیزم خودتوجهی چند سر و یک شبکه تغذيه به جلو تمام متصل از نظر موقعيت. مكانيزم خودتوجهى مدل را قا مختلف را در دنباله ورودى ثبت كند. در حالى كه شبكه بيشخورء تبديلهاى غيرخطى را براى هر موقعیت به:

صفحه 170:
۶ ادامه.... ۲ رمزگشا:رمزگشا ویژگی های کدگذاری شده را از رمزگذار می گیرد و یک دنبلله خروجی تولید می کند. مشلبه رمزكذار, رمزكشا از يشته ى از لايه های یکسان تشکیل شده است كه به آنها لايه هاى رمزكشا مى كويند. رمزكشا علاوه بر لایه‌های فرعی خود توجه و پیش‌خور, یک مکانیزم خودتوجهی جند سر ماسكدار اضافى نيز دارد. لين بوشش تضمين مىكند كه در طول آموزش. مدل فقط مى تواند.به موقعيتهاى قبل از موقعیت فعلی توجه کند. و از ديدن توكنهاى آيتده جلوكيرى مىكند و از توليد اتوركرسيو در طول رمزكشايى اطمينان مىدهد. رمز كشا همجنين داراى مكانيزم توجه رمزكذار- رمزگشا است که به مدل اجازه می دهد تا به ویژگی های کدگذاری شده تولید شده توسط لايه هاى رمزكذار توجه کند. معمارى تراتسفورمر جندين مفهوم مهم رأ معرفى مى كند: ‎.١‏ خود توجهی: خود توجهى به مدل اجازه می دهد تا اهمیت موقعیت های مختلف را در یک دنبلله ورودی بسنجد. لین امر امتیازات توجه را برای هر موقعیت بر اساس رابطه آن با سایر موقعیت ها محاسبه می کند. لین کار مدل را قادر می‌سازد تا هم وایستگی‌های محلی و هم وابستگی‌های دوربرد را به‌طور کارآمد درک کند. ۲. توجه چند سر: به جای تکیه بر یک مکانیزم توجه ترانسقورمرها از توجه چند سر استفاده می کنند. هر سرتوجه الگوها و وایستگی‌های متفاوتی را یاد م‌گیره و مثل را قادر می‌ساود تا جنبه‌های متذوعی از دتباله ورودی را به تصویر بکشد.

صفحه 171:
۶ ادامه.... ۲ رمزگذاری موقعیتی:ترانسفورمرها رمزگذاری موقعیتی را برای الئه اطلاعات در مورد ترتیب یا موقعيت توكن ها در دنبلله ورودی تر اين كار مدل را قادر می سازد تا اطلاعات متوالی را حتی بدون اتصالات بازگشتی درک کند. ۴ اتصالات باقيمانده و عادی سازی لایه: برای تسهیل آموزش کارآمد و کاهش مشکل محو گرادیان ۰ ترادسفورمرها از اتصالات باقیمانده و نرمال سازی لایه در هر زیر لایه و اطراف کل پشته های رمزگنار و رمزگشا استفاده می کنند. ترانسفورمرها ‎NLP ills‏ را متحول کرده لند و در کارهلیی مانند ترجمه ماشینی. خلاصه سازی متن. تجزیه و تحلیل احساسات و پاسخ به سوالات به تعليج بيشرقته أ دست یافته اند توانابی آن‌ها در درک وابستگی‌های دوربرده ممازی کردن محاسبات: و دنباله‌های ورودی پردازش به صورت موازی» باعث شده است تا در مدیریت داده‌های متوللی بسیار موثر باشند. ترانسفورمرها همچنین فرلتر از 1۳لا به حوزه های دیگر, از جمله بینلیی کامپیوتر و یادگیری تقویتی گسترش يافته اند.

صفحه 172:
۷ چند مدل متداول مبتنی بر ترانسفورمر کدامند؟ چندین مدل مبتتی بر ترانسفورمر محبوب وجود داشته است که پیشرفت های قلبل توجهی در حوزه های مختلف داشته است. در اینجا چند نمونه قابل توجه آورده شده ‏ ور است: ۱ ترانسفورمر: مدل اصلی ترانسفورمر در مقلله "توجه همه شما نیاز است" توسط واسوانی و همکاران معرفی شد. لین مدل پایه و اساس استفاده از مکانیزم های خودتوجهی را در وظایف ]۱۱ گذاشت و به طور گسترده به عتوان یک معماری پایه پذیرفته شده است. ۲ 8۶۲ (نملیش های رمزگذار دوطرفه از تیانسفورمرها): 8660 که توسط 06110] و همکاران معرفی شد. یک مدل مبتنی بر ترانسفورمر برای پیش آموزش بر روی مقادیر زیادی از داده های متنی بدون برچسب است با استفاده از یک هدف مدل‌سازی زیان ماسک‌دار و پیش‌بینی جمله بعدی, عملکردی فته در طیف وسیعی از وظایف .۱1 به دست آورد ‎¢-1.GPT (Generative Pretrained Transformer) +‏ مدل هاى 621 شامل 6۳۲,)6۳-2 و 6۳1-3 توسط 006۳۸۵۱ تومه باده شد این مدل‌ها با استفاده ار ممیاری‌های مر تسغورس با یر شوه پارلنتر هه قبلت‌های تلد رین جح رانقان تاد به وینه 1-3 دبا ۵ مارد پاراستر یکی از بزرگترس مدل های است که تا کون آمورش دیده است. ‎Transfer Transformer): T5 +‏ 1۵۱-۷0-۲6) ۲5 که توسط رافل و همکاران معرفی شد. یک مدل همه کاره مبتنی بر ترانسفورمر است که از یک چارچوب یکپارچه برای کارهای مختلف -الاأ. از جمله ترجمه ماشينى. خلاصه سازی متن. پاسخگویی به سوال و ... استفاده می کند. ‏۵ 2۱0۱6 :۵01166 پیشنهاد شده توسط ‎Sib‏ و همکاران» ایده آموزش مبتنی بر جایگشت برای مدل سازی زبان را معرفی کرد. از همه جایگشت‌های ممکن دنباله ورودی برای کاهش محدودیت‌های ماهیت خودبازگشتی مدل‌های زبان سنتی استفاده می‌کند و عملکردی پیشرفته در چندین کار ‎Ag NLP‏ و

صفحه 173:
۷ ادامه...؟ ‎ROBERTa +‏ :08۴۲6 معرفی شده توسط لیو و همکاران. یک گنه از 8۴۹ است که معماری مدل و فرآیند آموزش را بیشتر بهینه کرد. ‏با استفاده از انازه‌های دستهای بزرگتره داده‌های آموزشی بیشتر و برنمه‌های آموزشی طولانی‌تره عملکرد بهتری به دست آورد. ‎BERT ‏توسط 180و همکاران, با هدف کاهش تعداد پارامترها و بهبود کارایی مدل های‎ ALBERT (A Lite BERT): ALBERT vy ‏پيشنهاد شد. از تکنیک های به اشتراک گذاری پارامتر برای کاهش قابل توجه اندازه مدل و در عین حال حفظ عملکرد رقابتی استفاده کرد. ‏2۲۴۵ (یادگیری موثر رمزگذار که جایگزین های توکن رابه طور دقیق طبقه بندی می کند: 102۲3 که توسط کلارک و همکاران معرفی شد. رویکرد جدیدی را برای پیش آموزش ترانسفورمرها الئه کرد. لین مدل یک تنظیم مولد-متمایزگر را پیشنهاد کرد. که در كن يك مدل مولد نمونه‌های خراب را ایجاد می‌کند. و یک مدل متمایزگر یاد می‌گیرد بین نمونه‌های اصلی و خراب تملیز قثل شود. ۴.2713۸ با آموزش کارآمدتر در ‏مقایسه یا مدل‌های زبان ماسک‌دار سنتى به نتايج قوی‌تری دست یافت. ‏اينها تنها جند نمونه از بسیاری از مدل های مبتنی بر ترانسفورمر هستند که در سال های اخیر ظهور کرده اند. هر یک از این مدل ها سهم قابل توجهی در وظایف !۱ داشته اند و وضعیت مدلها را در درک و تولید زبان طبیعی ارتقا داده اند

صفحه 174:
‎patho FA‏ یادگیری ویژگی بدون نظارت چیست؟ ‏یادگیری ویژگی بدون نظارت یک تکنیک یادگیری ماشینی است که هدف ّن یادگیری خصایص یا ویژگی‌های معنادار از داده‌های بدون برچسب بدون نیاز به نظارت صریح یا مثال‌های برچسب گذاری شده است. هدف این است که ساختار زیرینایی. الگوها یا اطلاعات معنایی موجود در داده ها را به تصوير بکشد. که سپس می تواند برای کارهای مختلف پایین دستی استفاده شود. ‏در یادگیری با نظارت سنتی, مدل‌ها با استفاده از داده‌های برچسب‌گذاری شده آموزش داده می‌شوند. جایی که هر نقطه داده با یک برچسب یا مقدار هدف خاص مرتیط است. با لین حال, به دست آوردن داده های برچسب گناری شده می تواند در بسیاری از سثاریوهای دنیای واقعی گران. زمان بر یا حتی غیرممکن باشد. یادگیری ویژگی بدون نظارت این محدودیت را با استفاده از مقادیر زیادی از داده های بدون برچسب به راحتی در دسترس پرطرف می کند ‏مفهوم یادگیری ویژگی بدون نظارت شامل طراحی الگوریتم ها یا مدل های یادگیری است که می توانندبه لور خودکار ویژگی ها یا خصایص مفید را از داده ها کشف و استخراج کنند. این ویژگی ها باید اطلاعات مهمی را در مورد دامنه داده‌هاء مانتد ویژگی‌های آماری؛ روابط معنایی بین نمونه‌ها یا الگوهای مربوطه. به دست آورند. ‎ ‏یادگیری ویژگی بدون نظارت می تواند از چندین جهت مفید باشد: ‏۱ كاوش و نمايش داده ها: تکنیک هلی یادگیری بدون نظارت به درک ساختار و توزیع داده هابا نمایش آن ها در فضایی با ابماد پایین تر کمک می کند. معمولا برای این منظور از الگوریتم‌های کاهش ابعاد مانند آنالیز مژلفه اصلی (۳)2۸) یا عل/5- استفاده می‌شود.

صفحه 175:
۸ ادامه...؟ ۲ پیش آموزش و یادگیری انتللی: یادگیری ویژگی بدون نظارت می تواندبه عنوان یک گام مهم در پیش آموزش شبکه های عصبی عميق عمل كند. با آموزش مدل‌ها بر روی مقادیرزیادی از دادههایبدون برچسب. آن‌ها ید میگیرند که ویژگی‌های معنیداری را که مبوط به حوزه داده استه درك کنند. سپس این مدل‌های از پیش آموزش‌دیده را می‌توان بر روی مجموعه داده‌های برچسب گذاری‌شده کوچک‌تر رای وظلیف نظارت‌شده خاص تنظیم کرد که منجر به بهبود عملکرد و هم‌گرایی سریعتر می‌شود 1 خوشه‌بندی و تشخیص ناهنجاری: روش‌های یادگیری بدون نظارت مانشد الگوریتم‌های خوشه‌بندی. مانند 6068105 يا خوشهبتدى سلسله مراتبی. می‌توانند نمونه‌های مشایه را بر اساس نمایش ویژگی‌هایشان با هم گروه‌بندی کنند. اين کار به شناسایی الگوها یا گروه بندی نقاط داده در دسته های مجزا بدون آگاهی قبلی از برچسب های کلاس کمک می کند. همچنین می‌توان از تکنیک‌های تشخیص ناهنجاری برای شناسایی موارد غیرعادی یا پرت در داده‌ها استفاده کرد. ۴ مدل سازی مولد: یادگیری بدون نظارت می تواند برای مدل سازی مولد استفاده شود. جایی که مدل ها یاد می گیرند نمونه های جدیدی تولید کنتد که شبیه توزیع داده های بدون برچسب است. رمزگذارهای خودکار متغیر (/۷) و شبکه‌های مولد تخاصمی ((3/0)) مدل‌های تولیدی محبوبی هستند که می‌تونند نمنه‌های داده جدیدی مانند تصاویر یا متن را بر اساس ویژگی‌های آموخته شده تولید کنند. عور كني لكر ‎Ah‏ يدون نظارت به ماش ها بعازه می فهد نامه طیر مس تقل ویژگی های مفسد راز ده های دون برچ ‎SE Sh‏ سپس می‌توان از این ویژگی ها برای کارهای مختلف پایین‌دستی مانتد طبقه‌بندی, خوشه‌بندی, تشخیص ناهنجاری يا مدل‌سازی تولیدی استفاده کرد که منجر به بهیود عملکرد؛ تعمیم و درک داده‌ها می‌شود.

صفحه 176:
‎٩‏ چگونه می توان از بادگیری عمیق برای یادگیری ویژگی بدون نظارت استفاده کرد؟ ‏تکنیک های یادگیری عمیق را می توان برای یادگیری ویژگی بدون نظارت استفاده كرد تا به طور خودکار ویژگی ها یا خصایص معنی دار را از داده های بدون برچسب یادبگیرد. در انجا برخی از رویکردهای رایج آورده شده است: ‎le Autoencoder: ۱‏ یک نوع معماری شبکه های عصبی هستند که از یک رمزگذار و یک رمزگشا تشکیل شده اند. میتی بازسازى مى ۳ آموزش مدل برای به حداقل رساندن خطای بازسازی, رمزگذار اد می گیرد که ویژگی های مهم یا خصایص داده های ورودی را درک کند.انواع رمزگذارهای خودکارء مانند حذف نویز خودکار یا رمزگنارهای خودکار متغير ‎(VA)‏ فرآيند يادكيرى رابا افزودن نويز به ورودى يا تركيب مدل‌سازی احتمالی اقزایش می‌دهند. ‏۲ شبکه های مولد تخاصمی ‎cle Jas le GAN (GAN)‏ یادگیری عمیق هستند که از یک مولد و یک متمایزگر تشکیل شده اند. هدف مولد تولید نمونه‌های داده مصنوعی است که شبیه داده‌های بدون برچسب هستند. در حللی که متمایزگر سعی می‌کند بین داده‌های واقعی و تولید شده تملیز قلثل شود. از طریق یک فرآیند آموزش متخاصم. مولد یاد می‌گیرد که نمونه‌های واقعی تولید کند. و متمایزگر یاد می‌گیرد بین نمونههای واقعی و جعلی ‎GAN og ith alas‏ ها را می توان بر روی انواع داده ها مانتد تصاویره متن یا حتی دنبلله ها آموزش داد و توانایی های قلبل توجهی در یادگیری ویژگی بدون نظارت نشان داده است. ‏۳ یادگیری خود نظارتی: یادگیری خود نظارتی تکنیکی است که در آن مدل آموزش دادم می شود تا برخی از اطلاعات مفید را از خود داده ها بدون نيازبه حاشيه نویسی خارچی پیش بینی کند. ین کار شامل ایجاد سیگنال های نظارت مصنوعی از داده ها است. بهعنوان مثال. در زمینه زبان, مدل را می توان برای پیش بینی کلمات ماسک دار در یک جمله یا پیش بینی کلمه بعدی با توجه به متن قبلی آموزش داد. با آموزش مدل بر روی این وظایف اد می‌گیرد که ویژگی های معناداری از داده‌هایی را که اطلاعات معنایی و درک زمینه‌ای را به دست می‌آورند. به دست آورد. ‎ ‏خودساخته.

صفحه 177:
‎٩‏ ادامه..؟ ‏۴ یادگیری متضاد: یادگیری متضاد تکنیک دیگری برای یادگیری ویژگی بدون نظارت است. لین تکنیک شامل آموزش مدلی برای تملیز بین جفت‌های ت (نمونه‌هایی که مشلبه یا از نظر معتلیی مرتبط هستند) و جفت‌های منفی (نمونه‌هایی که غیرمشابه یا نامرتبط هستند) است. باه حداکثر رساندن شباهت بین جفت‌های مقبت و به حداقل رساندن شباهت بین جفت‌های منفی» مدل یاد می‌گیرد که نمایش‌های مفیدی را استخراج کند که ساختار ‏زیربنایی یا معنایی داده‌ها را نشان می‌دهد. ‏آموزش و یادگیری انتقالی: مدل‌های یادگیری عمیق که بر روی مقادیر زیادی از داده‌های برچسب گذاری شده برای وظایف نظارت شده از قبل ‎ ‏آموزش داده شده‌انده می‌تواتتد برای یادگیری ویژگی بدون نظارت نیز سورد استفاده قرار گيرند. با استفاده از ویژگی های آموخته‌شده در مرحله آموزش, این مدل‌ها را می‌تون بر روی داده‌های بدون برچسب برای کارهای بدون نظارت تنظیم کرد. ان رویکرد یادگیری انتقالی به مدل اجازه ‏می‌دهد تا ویژگی‌های کلی و دانش را از داده‌های برچسب گذاری‌شده دریافت کند و ویژگی ها را با استفاده از داده‌های بدون برچسب اصلاح کند. ‎ ‎ ‏اين رويكردها نشان مىدهند که چگونه تکنیک‌های یادگیری عمیق را می‌توان برای یادگیری ویژگی بدون نظارت به کار برد با استفاده از قدرت بیان شبکه‌های عصبی عمیق, این مدل‌ها می‌توانند. ویژگی های پیچیده و معنی‌داری را از دد‌های بدون برچسب پیاموزند که منجر به بهبود عملکرد در ‏وظايف باييندستى و درك بهتر ساختار اساسی و معنایی داده‌ها می‌شود. ‎

صفحه 178:
۰ مفهوم شبکه های عصبی گراف([۵1)) را توضیح دهید. شبکه‌های عصبی گراف (3۱۷(۷)) نوعی معماری شبکه عصبی هستند که برای کار بر روی داده‌های ساختاریافته گرافی طراحی شده‌اند. گراف ها شامل گره هلیی (همچنین به عنوان رئوس شناخته می شوند) هستند که توسط یال ها (همچنین یه عنوان بيوند شناخته مى شوند) یه هم متصل شده اند. و ‎GNN‏ ها به طور خاص برای پردازش و یادگیری از اطلاعات رابطه ای ذانی موجود در گراف ها طراحی شده اند. ایده کلیدی پشت !!31) ها به روز رسانی ویژگی هر گره با جمع آوری اطلاعات از گره های همسایه ن است که هم ویژگی های محلی گره و هم زمينه كلى لن را در كراف ثبت می کند. این فرآیند تجمیع به طور مکرر در چندین لایه انجام می‌شود و به شبكه اجازهمی‌دهد تا وابستگی‌های بيجيدهتر و روابط مرتبه بالاتر را كيرد. معماری معمولی یک 2 الا31) از اجزاى زير تشكيل شده است: ۱. ویژگی های گره: هر گره در كراف با يك بردار ويزكى همراه است كه نشان دهنده ويزكى هايا خصايص لن است. اين ويزكىها می‌توند هر گونه اطلاعات مرتبط با كره باشد. مانند تو متئى. مقادير عددى يا برجسبهاى طبقه‌بندی. ۲ارسال پیام: عملیات اصلی در !3 ها مکانیزم ارسال پیام است. در اين فرآيند. هر كره اطلاعاتی را از گره‌های مجاور خود جمع‌آوری می‌کند و ویژگی خود را بر اساس اطلاعات جمع‌آوری شده به روز می‌کند. لین تبادل اطلاعات به گره‌ه اجازه می‌دهد تا از همسایگان محلی خود بياموزند و دلنش گره‌های مجاور را در خود یگنجانند. ۲تلبع تجمیع: تلبع تجمیع نحوه ترکیب اطلاعات از گره های همسایه را تعیین می کند. با در نظر گرفتن وزن‌های قلبل یادگیری یا مکانیزم‌های توجه برای اهمیت دادن به همسایگان مختلف. می‌تواند به سادگی یک مجموع یا عملیات میانگین یا پیچیده‌تر باشد.

صفحه 179:
۰ ادامه.... ۴.به روز رسانی گره: هنگامی که اطلاعات جمع شد. گره ویزگی خود رابا ترکیب اطلاعات جمح شده با ویژگی فعلی خودبه روز می کند. این مرحله بهروزرسانی می‌تواند شامل تبدیل‌های غیرخطی مانند اعمال یک لایه شبکه عصبی یا تابع فعالسازى. براى درك روابط بيجيده باشد. ۵.خروجی سطح گراف: در برخی موارد. )ها خروجی در سطح گراف نیز تولید می کنند که خلاصه ای از اطلاعات بدست آمده از کل گراف است. این خروجی را می توان برای کارهایی مانند طبقه بندی گراف یا پیش بینی در سطح گراف استفاده کرد. 621۷8 ها در طیفگسترده لعاز کاربردها از جمله تسجزیه و تسحلیل‌شسبکه هایاجتماعی سیستم هایتسوصیه. شسیمی‌مولکولی لستداسمودار دلنش و شبکه هاولستنادیو غیره موف وده لند آرا در درکولبستگیهایب بچیده وا لگوهایساختاریدر داده‌های؟_ولفعالی‌هستد و قابلیهاولستدلالو پیش يني قديتمندىرا ممكرهيم ايند محققارإناع مختلفياز 6100110 را پیشنهاد کردهلند مانند شبکه‌هایکانولوشرگولف(!(63), شبکه‌های توجه گولف( ۰3۸۵ ۵۲۵0/۱5۸۵ و شبکه‌هییزومورفیسم گرلف(ل31)). که ه کلم دارلیت فییرلتم عمییو تجمیع خاص‌خود بسولی يسيدكىبه وظايفمختلفمربوط به كرلفهستد به طور خلاصه: [11لا|3) ها يك نوع معمارى شبكه هاى عصبى هستند كه براى بردازش و يادكيرى از داده هاى ساختار يافته كراف طراحى شده اند..يا استفاده از مکانیزم‌های ارسال پیام و تجمیع. ل/3۷)ها مد لسازى روايط و وابستكىها بين كردها را امكانيذير می‌کنند و آنها را براى كارهاى مختلف مرتيظ با كراف متاسب مى سازنف,

صفحه 180:
۱ برخی از کاربردهای شبکه های عصبی گراف را نام ببرید. شبکه‌های عصبی گراف (21۷)) در جاهلیی که داده ها را می کاربردهای زیادی دارند. در اینجا برخی از کاربردهای قبل توجه [21۷8) ها آورده شده است: ‎.١‏ تجزيه و تحلیل شبکه های اجتماعی: 63111 ها برای تجزیه و تحلیل شبکه های اجتماعی» مدل سازی رولبط بين افراد و ثبت تاثیرآنها بر یکدیگره ‏ساختار جامعه. و انتشار اطلاعات استفاده شده اند. این مدلها می توانند برای کارهایی مانند پیش بینی پیوند. طبقه بندی گره ها و تشخیص جامعه ‎ ‏استفاده شوند. ‏۲ سیستم های توصیه كننده: 0010© ها براق سیستم های توصیه اعمال شده اند که در ن کاربران و ‎ ‏هابه عنوان گره ها در یک گراف نمایش ‏داده می شوند. 3۷|۷) ها می توانند تعاملات کاربر و آیتم را درک کنند و اطلاعات را از طریق گراف منتشر کنند تا توصیه های شخصی ایجاد کنند. ‏۳ استدلال گراف دانش: ل(ل/2) ها برای استدلال و استنتاج در گراف های دانش استفاده شده اند که موجودیت ها و روابط آنها را نشان می دهند. ‏)ها می توانند روابط معنایی بین موجودیت ها را درک کنند. پیش بینی پیوندها را انجام دهند و حقایق یا روابط گمشده را استنتاج کنند. ‏۴ شیمی مولکولی: [(3۱۷) ها نتلیج امیدوارکننده ای را در پیش بینی خواص مولكولى. مانند فعاليت يا سميت مولكولى نشان داذه اند. 61010 ها مى ‏توانند ساختار و برهم کنش اتم ها و پیوندها را در یک مولکول درک کنند و پیش یینی های دقیق و کاربردهای کشف دارو را ممکن می سازند.

صفحه 181:
۱ ادامه..؟ ۵ پردازش زبان طبیعی (-1): ل!2۱۷) ها برای کارهای مختلف 0ل» مانند تجزیه معنایی, طبقه بندی متن. و شناسایی موجودیت نام دار به كار رفته اند. با نمایش متن به عنوان گراف و استفاده از اطلاعات رابطه ای. 63۷/۷ ها می توانند وابستگی بین کلمات یا موجودیت ها را درک کنند. ۶بینایی کامپیوتر: /2) ها در وظلیف بینلیی کامپیوتری که در آن. داده ها ساختار گراف دارند. مانند ابرهای نقطه ای یا گراف های صحنه, استفاده شده است. 631۷/۷ ها می توانتد رولبط بین اشیاء را پردازش و استدلال کنند و کارهایی مانند تشخیص اشیاء درک صحنه و تجزیه و تحلیل شکل سه ‎Beet a‏ ۷ بیوانفورماتیک: لال3ها در کاربردهای بیوانقورمانیک از جمله پیش‌بینی برهمکنش ‎Sa ata‏ پیش‌بینی ساختار پروتلین؛ و پیش‌بینی عملکرد ژن. استفاده شده‌اند. ‎co lo GNIN‏ توانند روابط پیچیده بین موجودات بیولوژیکی را ثبت کنند و به درک سیستم های بیولوژیکی کمک کنند. JA ‏شبکه را مدل‌سازی کنند. الگوهای فعالیت‌های مخرب را شناسایی کنند و رفتار غیرعادی را د‎ ‎lo GNN 25 jl‏ برای وظلیف امنیتی شبکه. مانند تشخیص نفوذ و طبقه بندی بدافزارها استفاده شده است. ل!2۱۷)ها می‌توانند توپولویئی عهاى شبكه در مقلس بزرگ شناسای کنند ‎ ‎ ‏اینها تنها چند نمونه از کاربردهای ل3۷8) هستند. انعطاف‌پذیری !7۷)ها در مدل‌سازی و استدلال با داده‌های ساختاریافته. آن‌ها را در بسیاری از حوزه‌های دیگر از جمله مللی. حمل‌ونقل» سیستم‌های توصیه. کشف تقلب و موارد دیگر قلبل استفاده می‌کند. ‎GNIN‏ ها همچنان یک حوزه تحقیقلتی فعال با هدف پرداختن یه چالش های جدید و پیش بردن مرزهای یادگیری و استنتاج میتنی بر گراف هستند.

صفحه 182:
۳ مفهوم هوش مصنوعی توضیح ‎phy‏ در یادگیری عمیق چیست؟ هوش مصنوعى توضيح بذير (0)41 به مفهوم طراحى و توسعه سیستم‌های هوش مصنوعی (1(/ بهوییهمدل‌های یادگیری عمیق اشاره دارده به كونداى که به انسان اجاژه می‌دهد قرآیندهای تصمیمگیری خود را درک و تفسیر کند. هدف لن ارئه توضیحات با توجیهی برای پیش‌بینی‌ها یا اقدامات انجام‌شده توسط مدل‌های هوش مصنوعی است. و کاربران را قادر می‌سازد تا به عوامل اساسی که در اين تصمیم‌ها کمک می‌کنند اعتماد. تأیید و درک کنند. مدل های یادگیری عمیق. مانند شبکه های عصبی.به دلیل عملکرد قلبل توجه خود در وظلیف مختلف از جمله طبقه بندی تصویر پردازش زبان طبیمی و تشخیص گفتان شناخته شده اند با لين حال. آنها اغلب به عنوان جمبه سیاه پیچیده عمل مى کنند و درک اینکه چرا یک پیش بینی یا تصمیم خاص گرفته شده است. چالش برانگیز است. این فقدان تفسیرپذیری نگرانی‌هایی را بهوییه در حوزههاى حياتى كه در لن تصميمها بر زندكى انسانها تأثير ع ىكذارف عائند عراقيتهاى بهداضتيء عالى و سيستوهلى مستقل ايجاد م ىكند. هوش مصنوعى توضيح يذير تلاش مى كند قاما ارلئه بينشى در مورد عملكرد داخلى مدل هاى هوش مصنوعى به لين چللش رسیدگی کند. در اینجا چند تكنيك و رويكرد رايج مورد استفاده در هوش مصنوعى توضيح بذير براى يادكيرى عميق آورده شده است: ۱. اهمیت ویژگی: روش هلیی مالند تجزیه و تحلیل اهمیت ویژگی یا روش های اسناد با هدف شناسایی ویژگی های ورودی است که بیشترین سهم را در پیش بینی های مدل دارد. لین تکنیک‌ها به درک لین که کنام ویژگی‌ها توسط مدل, مرتبط در نظر گرفته می‌شوند. کمک می‌کنند و می‌توانند بینشی در مورد فرآیند تصمیم‌گیری ارائه دهند. ۲. توضیحات محلی: روش های توضیح محلی بر ره توضیحات برای پیش بینی های واحد تمرکز دارن. هدف لین روش ها برجسته کردن نواحی یا ویژگی های خاص در ورودی است که بر تصمیم مدل تأثر گذاشته است. تکنیک هلبی مانند 14| (توضیحات مدل قلبل تفسیر محلی-اگنوستیک) و 511۸8 (توضیحات افزودنی 65113/۵6۷ در این دسته قرر می گیرند.

صفحه 183:
۲ ادامه..؟ ۳. استخرج قنون: هدف روش های استخراج قانون استخراج قوانين قابل درك برای انسان از مال های یادگیری عمیق آموزش دیده است. ابن قوانين می تونندقوانین تصمیم گیری قلیل تفسیری را رئه دهند که رفتار مدل پیچیده را نقلید می کند وبه کربران امکان می دهد فرآیند تصمیم را درک کشند. ۴ تکنیک های نملیش: نملیش ها نقش مهمی در توضیح عملکرد درونی مدل های یادگیری عمیق دارند. تکنیک‌هلیی مانند نقشه‌های برچسته, نملیش فعال‌سازی و نقشه‌های توجه. بازنمایی‌های بصری را ارائه می‌دهند که نواحی یا ویژگی‌های مهم داده‌های ورودی را که بر پیش‌بینی‌های مدل تأثیر می‌گذارند. برجسته می‌کنند. ۵ ساده‌سازی مدل: رویکرد دیگر برای توضیح‌پذیری .شامل ایجاد مدلهاى سادهتر و قابل تفسير است كه رفتار مدلهاى بيجيده یادگیری عمیق را تقریب می‌کند. لین مدل‌های ساد‌تر,منند درخت‌های تصمیم گیری یا مدل‌های خطی, می‌توانند شفافیت و قلبل فهم بودن رابه قیمت برخی عملکردها فراهم کنند. هوش مصنوعی توضیح پذیر نه تنها شفافیت و اعتماد را در سیستم‌های هوش مصنوعی ارتقا می‌دهد. بلکه به شناسایی بایاس‌هاء ملاحظات اخلاقی و خطاهای احتمالی در فرآیند تصمیم‌گیری کمک می‌کند. کاریران. ذینفعان و نهادهای نظارتی را قادر می‌سازد تا دلایل پشت پیش‌بینی‌های هوش مصنوعی را درک کنند و اطمینان حاصل کند که تصمیم‌ها با اصول اخلاقی؛ قانونی و منصفانه مطابقت دارند. با پیشرفت تحقیقات در زمینه هوش مصنوعی توضیح پذیر . هدف ایجاد تعادلی بین عملکرد مدل و قابلیت تفسیر است و مدل‌های یادگیری عمیق را برای طیف گسترد‌ی از بنمه‌های کاربردی دنیای واقعی پاسخگوتره شفافتر و قابل دركتر مىكند.

صفحه 184:
۳ چگونه می توان مدل های یادگیری عمیق را قابل تفسیرتر ساخت؟ تفسیرپذیرتر کردن مدل‌های یادگیری عمیق یک حوزه فعال تحقيق با تكنيكها و رویکردهای مختلف است. در اينجا جند استراتزى وجود دارد كه مى تون برای افزایش تفسیرپذیری مدل های یادگیری عمیق استفاده کرد اهمیت ویوگی: درک سهم وینگی های متحصر به فرد در پیش بسی های مدل می تولند بینش های ارزشمندی را لته دهد تکتیک‌هایی مانشد تجزیه و تحلیل اهمیت ویژگی یا روش‌های انتساب. مانند روش‌های مبتنی بر گرادیان (به عنوان مثال, ‎Gradient Class Activation‏ 6۳۵0-۷۷ - ۵001۳9). می‌توانند ویژگی‌ها یا نواحی ورودی را که به شدت بر خروجی مدل تأثیر می‌گذارند. شناسایی کنند. ۲نمایش فعالسازی: نمایش فعال‌سازی لایه‌های میانی یا نورون‌های خاص در شبکه می‌تواند بینشی در مورد نحوه پردازش مدل داده‌های ورودی ارائه دهد. نمایش های فعال‌سازی, مانند نقشه‌های فعال‌سازی یا نقشه‌های حرارتی» می‌تواتند مشخص کنند که کدام نواحی یا الگوهای موجود در ورودی فمال شده‌اند و به تصمیم گیری مدل کمک مي‌کنند. ۳مکانیزم‌های توجه: مکانیزم‌های توجه. که معمولاً در مدل‌ها و ترانسفورمرهای دنباله به دنباله استفاده می‌شوند. می‌توانند نشان دهند که کدام بخش از ورودی برای مدل مرتبط‌تر است. a ee ee Oe Oe ‏می‌کند. نمایش داد.‎

صفحه 185:
‎VY‏ دامه...؟ ‏۴ استخراج قانون: هدف تکنیک های استخراج قانون استخراج قوانین قلبل درک برای انسان از مدل های پیچیده یادگیری عمیق است. اين قوانين مى توانند قوائین تصمیم گیری قلبل تفسیری را ارلثه دهند که رفتار مدل عمیق را تقلید می کند وبه کاربران امکان می دهد فرآیند تصمیم را درک کنند. ن منطقی, رفتار مدل را به قوائینی که به راحتی قابل تفسیر هستند. ساده ‎ ‏۵. تقطیر مدل: تقطیر شامل آموزش یک مدل ساده تر و قابل تفسيرتر. مانند درخت تصميم يا مدل خطى. براى تقريب رفتار مدل يادكيرى عميق است. مدل ساده‌تر می‌تولند الگوهای مهمی را که توسط مدل عمیق آموخته شده است. در حللی که نمایش شفاف‌تر و قلبل فهم‌تری ارلثه می‌دهد. به تصویر بکشد. ‏۶آزمون خصمانه: ارزيلبى استحكام مدل در برابر نمونه هاى متخاصم مى توند به درک آسیب پذیری ها و ایاس های احتمالی آن کمک کند. آزمون خصمانه شامل تلد تمونه های آشفته ای است که برای فرب دادن مثل با ره اندازی بش نی های امرست طراحی شده لند و مرزهای تصمیم گیری مدل و نقاط ضعف بالقوه را روشن می کنند ‏۷ تملیش تعاملی: توسعه نملیش های تعاملی یا بزارهایی که به کاربران اجاژه می‌دهد پیت‌بیتی‌ها و ویژگی‌های داخلی مدل را کاوش کتند وبا آتها تعاسل داشته باشند» می‌تواند تفسیرپذیری را بهبود بخشد. کاربران می‌توانند با دستکاری ویژگی‌های ورودی. مشاهده پاسخ مدل, و درک فرآیند تصمیم‌گیری به شیو‌ای شهودی‌تره بینش‌هایی کسب کنند. ‎ ‎

صفحه 186:
‎VY‏ دامه...؟ ‏۸ معماری های توضیح پذیر: طراحی معماری ها به طور خاص با در نظر گرفتن قابلیت تفسیر می تواند شفافیت مدل را افزایش دهد. برای مثال. ترکیب مکانیزم‌های توجه صریح. استفاده از ساختارهای سلسله مراتبی یا مدولاره یا ترکیب مولفه‌های قابل تفسیر صریح (به عنون مثال, ماژول‌های ‏مبتنى بر قانون) مى تواند درك را تسهيل كند و رفتار مدل را قابل تفسيرتر كند. ‏توجه به لین نکته مهم است که اغلب بین تفسیرپذیری مدل و عملکرد یک تعادل وجود دارد. افزليش قابليت تفسير ممکن است منجر به از دست دادن ‏دقت يا کاهش پیچیدگی شود. بتابراین, انتخاب تکنیک‌های تفسیرپذیری باید بر اساس الزامات خاص مسئله مورد نظر انجام شود. ‏محققان به طور فعال در حال بررسی روش‌ها و تکنیک‌های جدید برای افزایش تفسیرپذیری مدل‌های یادگیری عمیق و در عين حال حفظ عملکرد رقابتی هستند. حوزه هوش مصنوعی توضیح پذیر به تکامل خود ادامه می‌دهد و ایزارها و بینش‌هلیی را در اختیار پزشکان و پژوهشگران قرار می‌دهد تا ‏مدل‌های یادگیری عمیق را شفاف‌تره پاسخگوتر و قابل اعتمادتر کنند. ‎

صفحه 187:
۴ مفهوم حملات خصمانه را در یادگیری عمیق توضیح دهید. حملات خصمانه در یادگیری عمیق به دستکاری عمدی داده های ورودی با هدف گمراه کردن یا ایجاد طبقه بندی نادرست توسط یک مدل یادگیری عمیق اشاره دارد. هدف این حملات سوء استفاده از آسیب پذیری‌ها و محدودیت‌های فرآیند تصمیم گیری مدل. اغلب با ایجاد اختلالات نامحسوس در داده‌های ورودی است. ايده کلیدی پشت حملات خصمانه تولید نسخه های اصلاح شده از نمونه های ورودی است که به عنوان نمونه های متخاصم شناخته می شهند. که به گونه ای طراحی شده اند که مدل را به پیش بینی ها یا خروجی های نادرست وادار کنند. مثال‌های متخاصم یا اعمال تغییرات کوچک در داده‌های ورودی اصلی ایجاد می‌شهند. که با دقت ساخته شده‌لند تا احتمال فریب مدل رابه حداکثر برسانند و در عین حال برای ناظران انسانی نامحسوس باقی بمانن. حملات خصمانه را می توان به دو نوع اصلی طبقه یندی کرد: ۱ حملات ۷۷1۱[]6-80: در حملات جعبه سفید. مهاجم از معماری؛ پارامترها و داده های آموزشی مدل هدف. آگاهی کامل دارد. اين اطلاعات به مهاجم اجازه می دهد تا تمینه های متخاصم را به طور موثر بهینه کند. روش‌های رایج حمله جمبه سفید عبارتد از 5190 6۳۵016۳۶ ۳۵5۴ ‎Jacobian (JSMA) ,, 2. «>, 428 alo , Method (FGSM). Projected Gradient Descent (PGD)‏

صفحه 188:
۴ ادامه.... ۲. حملات جعیه سیاه: در حملات جعیه سیاهه مهاجم در مورد جزئیات داخلی مدل هدف اطلاعات محدودی دارد یا هیچ اطلاعی ندارد. مهاجم فقط می تواند مدل را پرس و جو کند و خروجی های آن را مشاهده کند. حملات جعبه سیاه معمولاً شامل روش‌هلیی مانند حملات مبتنی بر انتقال است که در آن مهاجم یک مدل جایگزین را بر روی داده‌های مشابه آموزش می‌دهد و از آن برای تولید نمونه‌های متخاصم استفاده می‌کند. یا حملات مبتنی بر بهینه‌سازی, که در آن مهاجم به طور مکرر مدل را جستجو می‌کند تا نمونه‌های متخاصم ایجاد کند. حملات خصمانه پیامدهای مهمی برای امنیت و قابلیت اطمینان سیستم های یادگیری عمیق دارند. لین حملات نگرانی‌هایی را در مورد آسیب‌پذیری مدل‌ها در يرابر تغييرات ظريف داده‌های ورودی ایجاد می‌کنند که به طور بالقوه منجر به پیش‌بینی‌ها یا اقدامات نادرست در برنامه‌های کاربردی حیلتی می‌شود. حملات خصمانه همچنین عدم استحکام و تعمیم مدل های یادگیری عمیق را برجسته می محققان و پزشکان از مکانیسم‌های دفاعی مختلفی برای کاهش حملات خصمانه استفاده مي‌کنند. اين دفاع‌ها شامل آموزش خصمانه است که شامل تقویت داده‌های آموزشی با مثال‌های متخاصم برای قوی‌تر کردن مدل است و تقطیر دفاعی که در آمن مدل آموزش داده می‌شود تا نسبت به آشفتگی‌های متخاصم حساسیت کمتری داشته باشد. حملات و دفاع خصمانه حوزه های تحقیقاتی مداومی هستند. زیرا هم مهاجمان و هم مدافعان به طور مداوم تکتیک ها و استراتزی های جدیدی را توسعه می دهند. درک ماهیت خصومت حملات و بهبود استحکام مدل های یادگیری عمیق برای استقرار سیستم های هوش مصنوعی ایمن و قابل اعتماد در سناریوهای دنیای واقعی بسیار مهم است.

صفحه 189:
۵ روشهای دفاع در برابر حملات متخاصم چیست؟ دفاع در برابر حملات متخاصم یک حوزه ت مداوم در یادگیری عمیق است. در حللی که دستیابی به استحکام کامل چللش برانگیز است. روش و تکنیک وجود دارد که می تواند به بهبود انعطاف پذیری مدل های یادگیری عمیق در برایر حملات متخاصم کمک کند. در اینجا چند مکانیزم دفاعی رایج وجود دارد ۱ آموزش خصمانه: آموزش خصمانه یک استراتژی دفاعی پرکاربرد است. لین استراتژی شامل تقهیت داده های آموزشی با نمونه های متضاد تولید شده در طول فرآیند آموزش است. با قرار دادن مدل در معرض لین نمونه های متخاصم. مدل می آموزد که در برابر آشفتگی های متخاصم قوی تر و اتعطاف پذیرتر شود. آموزش خصمانه می تواند باعث تعمیم بهتر مدل شود و توانایی آن را برای مقاومت در برابر حملات متخاصم بهیود بخشد. ۲ تقطیر دقاعی: تقطیر دفاعی تکنیکی است. که شامل آموزش یک مدل تفطیر شده است که حساسیت کمتری به تغییرات متخاصم دارد. مدل تقطیر شده با استفاده از خروجی های یک مدل از پیش آموزش دیده به عنوان برچسب های "نرم" به جای برچسب های "سخت" اصلی آموزش داده می شود. این فرآیند مدل را در رابر حملات متخاصم در طول استنتاج مقاوم تر می کند. ۳ ۲۱۵5/۳9 6۳۵01606 :۳0۵5/09 0۳۵0160۴ يك مكانيزم دفاعى است كه هدف أن مخفى كردن يا مبهم كردن گرادیان های مدل است و توليد نمونه هاى متخاصم موثر را براى مهاجمان سخت تر مى كند. اين مكانيزم شامل اصلاح معمارى مدل يا فرآيند آموزش براى سركوب اطلاعات كراديان است كه مى تواند براى ايجاد اختلالات متخاصم استفاده شود.

صفحه 190:
۷۵ ادامه...؟ ۴ تبدیل ورودی: روش‌های تبدیل ورودی» داده‌های ورودی را قبل از تغذیه به مدل, با هدف حذف یا کاهش تأثیر اختلالات متخاصم تغییر می‌دهند. تکنیک‌هایی ماتند تصادفی‌سازی, هموارسازی یا تزریق نویز را می‌توان روی داده‌های ورودی به کار برد تا در برایر حملات خصمانه قوی‌تر شود با ين حال: اين روش ها نیازبه ایجاد تعادل بین استحکام و حفظ اطلاعات مفید در داده ها دارند ۵ دقاع جمعی: روش‌های جمعی شامل آموزش چندین مدل یادگیری عمیق و ترکیب پیش‌بینی‌های آنها برای تصمیم‌گیری است. با استفاده از تنوع پیش‌بینی‌ها از مدل‌های مختلف روش‌های جمعی می‌توانتد استحکام مدل را در برابر حملات متخاصم افزایش دهند. مهاجمان باید دفاع چندین مدل را به طور همزمان دور بزنند و حمله را دشوارتر کتند. ۶ دفاع های تایید شده: هدف دفاع های تایید شده ارائه تضمین های قابل آثبات در برابر حملات خصمانه است. اين روشها شامل فرمول‌بندی دقاع به‌عتوان یک مسئله بهینه‌سازی است. که در آن هدف به حداکثر رساندن یک حد پایین در دقت مدل تحت حملات خصمانه است. هدف دفاع‌های قابل تایید ارائه تضمین‌های دقیقی است که مدل حتی تحت سطوح خاصی از اختلالات متخاصم عملکرد خوبی خواهد داشت. توجه به لين نکته مهم است که هیچ روش دفاعی کاملابی خطا نیست و حملات و دفاع های متخاصم دائماً در حال تغییر هستند. مهاجمان می توانند تکتیک های خود را تطبیق دهند و آسیب پذیری های جدیدی ممکن است ظاهر شوند. بنایرلین. بررسی و ارزیلبی مستمر استراتژی‌های دفاعی مختلف و به روز ماندن با آخرین پیشرفت‌ها در تحقیقات حملات خصمانه برای بهبود استحکام مدل‌های یادگیری عمیق. بسیار مهم است.

صفحه 191:
۶ مفهوم یادگیری مشارکتی چیست؟ یادگیری مشارکتی یک رویکرد یادگیری ماشینی توزیع شده است که مدل های آموزشی را در متیع داده غیرمتمرکز بدون نیا به متمرکز شدن داده ها در یک مکان واحد را امکان پذیر می کند. در یادگیری مشارکتی . فرآیند آموزش در دستگاه‌های لبه یا سرورهای محلی که داده‌ها در آنجا تولید می‌شهند. مانند گوشی‌های هوشمند. دستگاه‌های 10یا سرورهای محلی در یک سازمان صورت می‌گیرد. ایده اصلی لین است که به جای انتقال داده ها به یک سرور مرکزی, الگوریتم یادگیری را به داده ها بياوريم. مفهوم یادگیری مشارکتی شامل اجزای کلیدی زیر است: ۱ داده های توزیع شده: در یادگیری مشارکتی . داده ها در چندین دستگاه یا سرورهای محلی توزیع می شوند. هر دستگاه يا سرور داده های خود را به صورت محلی نگهداری می کند و داده ها بدون ارسال به سرور مرکزی برای آموزش روی دستگاه یا سرور بقی می ماند. ۲.به روز رسانی های مدل محلی:به جای ارسال داده های خام به سرور مرکزی. هر دستگاه یا سرور با استفاده از داده های محلی خود به روز رسالی های مدل محلی را انجام می دهد. لین به‌روزرسانی‌های محلی شامل محاسبه گرادیان‌ها یا ب‌روزرسانی‌های مدل بر اساس داده‌های محلی با استفاده از یک الگوریتم بهینه‌سازی. مانند نزول گرادیان تصادفی (5)3]0) است. ۲ تجمیع به‌روزرسانی‌های مدل: پس از بروزرسانی‌های مدل محلی به‌جای اشتراک گذاری داده‌های خام. فقط بهروزرسانىهايا كراديانهاى مدل به يك سرور مرکزی ارسال می‌شوند که معمولاً جمع کننده یا هماهنگ کننده نامیده می‌شود. 9۲6931:0۳ ۸0 به‌روزرسانی‌های مدل را از دستگاه‌ها یا سرورها گردآوری می کند و آنها را جمع‌آوری می‌کند تا یک به‌روزرسانی مدل سراسری ایجاد کند.

صفحه 192:
‎VF‏ ادامه...؟ ‏۴ فرآیند تکراری: یادگیری مشارکتی معمواًثامل چندین دور یا تکرر از به روز رس ‏دستكادها يا سرورها بازكردانده می‌شود و این فرآیندبه طور مکرر برای اصلاح مدل نکرار می‌شود ‏و تجمیع مدل محلی است.ب‌روزرسانی مدل سراسری به ‎ ‏مزایای یادگیری مشارکتی شامل حفظ حریم خصوصی است. زیرا داده های حساس در دستگاه ها یا سرورهای محلی باقی می مانند و خطر نقض داده ها یا نقض حریم خصوصی را کاهش می دهد. یادگیری مشارکتی همچنین امکان آموزش بر روی حجم زیادی از داده های توزیع شده را بدون نياز به ‏انتقال داده ها به يك سرور مركزى. كاهش بهناى باند مورد نياز و رسيدكى به مسائل مريوط به مالكيت و انطیاق داده ها را فراهم می کند. ‎ ‏یادگیری مشارکتی در حوزه های مختلف از جمله دستكاه هاى تلقن همراه. مراقبت هاى بهداشتى. مالى و اينترنت اشيا كاريرد دارد. اين كار دامكان یادگیری مشاركتى در منابع داده غیرمتمرکز را فراهم می‌کند و به سازمانها يا افراد |. خصوصی و مالکیت داده‌ها را حفظ کنند. ‎ ‏ره می‌دهد از دانش مشترک بهره ببرند و در عين حال حریم ‎ ‏توجه به این نکته مهم است که یادگیری مشارکتی چالش‌های خاص خود را مانند برخورد با ناهمگونی در داده‌های محلی؛ پرداختن به مسائل ارتباطی و ‏هماهنگ‌سازی, و اطمینان از کیفیت و نمایندگی مدل سراسری معرفی می‌کند. محققان و متخصصان به کشف تکنیک‌هایی برای غلبه بر این چالش‌ها و ‎ ‏بهبود کارایی و اثربخشی یادگیری مش رکتی ادامه می‌دهند.

صفحه 193:
۷ بادگیری مشارکتی چگونه به آموزش مدل های یادگیری عمیق بر روی داده های غیرمتمرکز کمک کند؟ می یادگیری مشارکتی چندین مزیت را برای آموزش مدل های یادگیری عمیق بر روی داده هاى غيرمتمركز ارائه مى دهد: ۱.حفظ حریم خصوصی: یادگیری مشارکتی مدل های آموزشی را قادر می سازد بر روی داده های غیرمتمرکز در حالی که داده ها محلی و خصوصی نگه می دارند.اجرا شود. به‌جای ارسال داده‌های خام به سرور مرکزی» بهروزرسانی‌ها یا گرادین‌های مدل محلی به اشتراک گذاشته می‌شوند. این رویکرد خطر افشای داده های حساس را به حداقل می رساند و نگرلنی های مربوط به حفظ حریم خصوصی مرتبط با جمع آوری و ذخیره سازی متمرکز داده ها را پرطرف می کند. ۲. حاکمیت داده:با یادگیری مشارکتی. داده ها روی دستگاه ها یا سرورهایی که در آن تولید می شوند باقی می مانند و به افراد یا سازمان ها اجازه می دهد تا کنترل داده های خود را حفظ کنند. لین امربه ویئه در سناریوهایی که قوانین مربوط به مالکیت داده و انطباق آنها حیلتی است. مانند داده های ت هاى بهداشتى يا مالى؛ بسیار مهم است. sla ۳ مقیاس پذیری و کارایی: یادگیری مشارکتی امکان آموزش بر روی حجم زیادی از داده های غیرمتمرکز را بدون نیاز به انتقل داده ها به سرور مرکزی فراهم می کند. این امر نیاز به بهنای باند را کاهش می‌دهد و هزینه‌های ارتباطی را به حداقل می‌رساند و در مقایسه با رویکردهای متمرکز ستتی, مقیاس پذیرتر و کرآمدتر می‌شود. ۴ یادگیری مشارکتی: یادگیری مشارکتی همکاری و اشتراک دانش را در بین صاحبان داده های متعدد امکان پذیر می کند. با تجمیع به‌روزرسانی‌های مدل محلی از دستگاه‌ها یا سرورهای مختلف یک مدل سراسری می‌توان آموخت که از دانش جمعی در منایع داده غیرمتمرکز بهره می‌برد.

صفحه 194:
۷ ادامه..؟ ۵ استحکام و تعمیم: آموزش مدل های یادگیری عمیق بر روی منبع داده های متنوع و غیرمتمرکز می تولند استحکام و قابلیت های تعمیم مدل ها را قرایی ده تبوع ادها ور دس گهها مان پرهان ‎Gents eds = Lea‏ بای وب و یی متل برای هم ادههای جدی دنه که کمک کند. ۶ محاسبات لبه: یادگیری مشارکتی به ویژه برای سناریوهای محاسبات لبه ای که داده ها در دستگاه های لبه تولید می شهند. مانند دستگاه های تلفن با آموزش مدل‌های محلی بر روی دستگاه‌های لبه,یادگیری مشارکتی نیاز به ارتباط مکرریا سرور مرکزی را eee one همراه یا دستگاه های ۲ 0 مناسب ۷ کارایی داده: یادگیری مشارکتی کارایی داده را با استفاده از منابع داده محلی ارتقا می دهد. به‌جای تکیه صرفاً بر یک مجموعه داده متمرکز: مدل‌ها را می‌تون بر روی طیف وسیع‌تری از منبع داده آموزش داد و تغييرات بيشترى را درك كرد و عملكرد مدل را افزايش داد. یادگیری مشارکتی مزاياى مالكيت داده هاى غيرمتمركز و يادكيرى مشاركتى را در كنار هم مى آورد و در عين حال به نگرانی های مربوط به حريم خصوصى و مقياس بذيرى مى بردازد. اين كار به سازمان ها يا افراد اجازه مى دهد ا از هوش جمعى داده هاى غيرمتمركز بهره ببرند و در عين حال حریم خصوصی داده ها را حفظ کرده و کنترل داده ها را حفظ کنند.

صفحه 195:
۸ مفهوم مدل های مولد برای تشخیص ناهنجاری را توضیح دهید. مدل‌های مولد برای تشخیص ناهنجاری, به استفاده از مدل‌های مولد. معمولاً مبتنی بر یادگیری عمیق برای شناسایی ناهنجاری‌ها یا نقاط پرت در داده‌ها اشاره دارد. تشخیص ناهنجاری شامل شتاسایی الگوها یا نمهنه هایی است که به طور قلبل توجهی از هنجار یا رفتار مورد انتظار در یک مجموعه داده متحرف می شوند. مفهوم مدلهاى مولد براى تشخيص ناهنجارى. ريشه در اين ايده درد که داددهاى عادی را می‌توان به طور موثر مدل‌سازی و ولید کرد. در حللی که ناهنجاری‌ها از الگوهای آموخته‌شده منحرف می‌شهند و احتمال کمتری وجود دارد که با دقت توسط مدل تولید شوند. با آموزش یک مدل مولد بر روی داده‌های معمولی. مدل یاد می‌گیرد که الگوها و توزیع‌های زیربنایی داده‌ها را درک کند و به آن اجازه می‌دهد نمونه‌های جدیدی تولید کند که مشلبه داده‌های آموزشی هستند. در طول مرحله تشخیص ناهنجاری, از مدل مولدبرای تخمین احتمال یا خطای بازسازی یک نمونه معین استفاده می شود. اگر نمونه ای دای احتمال كم يا خطلى بازسازى بالا باشد. به عنوان يك ناهتجارى يا مورد دور از ذهن در نظر گرفته می شود انواع مختلفى از مدل هاى مولد براى تشخيص ناهنجارى استفاده شده است. از جمله: ۱ رمزگذارهای خودکار متغیر (۷۸۸25): ۷/۸۶ ها مدل های مولد عمیقی هستند که نمایش نهفته داده های ورودی را ياد مى كيرند. با آموز, عاقلا بر روی داه‌های معمولى مدل ياد م ى كيرد كنه داددها را هر يك فضاى .ينهان رمزكتارى كند و آنها را يراى بازسازىدادمهلى اصلى دوياره رمزگشایی کند. ناهنجاری های با خطای بازسازى يالا به عنوان نقاط برت شناسايى مى شوند.

صفحه 196:
۸ ادامه... ۲ شبکه های ملد تخاصمی (3۸(/5)): [3/۵) ها از یک شبکه مولد و یک شبکه متمایزگر تشکیل شده اند. مولد یاد می گیرد که نمینه هایی تولید کند که شبیه داده های آموزشی هستند. در حالی که متمایزگر بین نمونه های واقعی و تولید شده تمایز قائل می شود. ناهنجاری ها را می توان با اندازه گیری ناتوانى متمايزكر در تمايز بين داده های واقعی و تولید شده شناسایی کرد. ۳رمزگذارهای خودکر: رمزگذارهای خودکار. شبکه های عصبی هستند که یاد می گيرند داده های ورودی خود را بارسازی كنند. با آموزش يك رمزگذار خودکار بر روی داده‌های معمولی. یاد می‌گیرد که داده‌ها را به صورت نمایشی با ابعاد پایین‌تر رمزگذاری کرده و آن را برای بازسازی داده‌های اصلی رمزگشایی کند. ناهنجاری هایی با خطای بازسازی بالا به عنوان ناهنجاری شناخته می شوند. ۴مدل‌های جریان نرمال سازی: مدل‌های جریان نرمال ‎sil‏ مدل‌های تولیدی هستند که می‌توانتد وزیع‌های بيجيده را در داده‌ها ثبت کنند. با آموزش یک مدل جریان نرمال سازی بر روی داده های عادی توزیع زیرنلیی را یاد می گیرد. ناهنجاری ها را می توان یا اندزه گیری احتمال يك نمونه همین تحت توزیع آموخته شذه شناسایی کرد. مدل‌های مولد یرای تشخیص ناهنجاری به دلیل توانلییآنها در درک الگوها و توزیع‌های پیچیده داده‌های معمولی محبوبیت پیدا کردهند. این مدلها می توانند ناهنجاری ها را در جوزه های مختلف. از جمله تشخیس تقلب. تشخیص نفوذ شبکه. تشخیص پزشکی و کنترل کیفیت متمتی شناسایی کنند با ين حال. توجه به اين نكته مهم است که مدل‌های مولد ممکن است در تشخیص ناهنجاری‌های نادر یا جدید که به طور قابل‌توجهی با داده‌های اوت است. با چالش‌هایی مواجه شوند. تحقیقات و پیشرفت‌های مداوم در تکنیک‌های مدل‌سازی تولیدی با هدف بهبود دقت و استحکام آموزشی روش‌های تشخیص ناهنجاری انجام می‌شود.

صفحه 197:
‎.٩‏ چند مدل مولد محبوب برای تشخیص ناهنجاری را نام ببرید. چندین مدل مولد محبوب برای تشخیص ناهنجاری استفاده شده است. در اینجا چند نمونه آورده شده است: ‏۱. رمزگذارهای خودکار متغیر (0۷//]5): ۷۸۸۴ هابه طور گسترده برای تشخیص ناهنجاری استفاده می شوند. لین مدلها یاد می گیرند که داده های ورودی را در یک فضای پنهان رمزگذاری کنند و ن را برای بزسازی داده های اصلی رمزگشایی کنند. نهنجاری هایی با خطای بازسازی بل برت در نظر گرفته می شوند. ‏۲ شبکه های مولد تخاصمی ((65۸۵): 3۸0(۷) ها همچنین برای وظایف تشخیص ناهتجاری به کار رفته اند. شبکه مولد یاد می گیرد که نمینه هلیی ‏شبیه به داده های آموزشی تولید کند. در حللی که شبکه متمایزگر بین نمنه های واقعی و تولید شده تملیز قلثل می شود. ناهنجاری ها را مى ‎ ‏ان بر اساس ناتوانى متمايزكر در تشخيص داده هاى واقعى و توليد شده شناسايى كرد. ۳ رمزگذارهای خودکار: رمزگذارهای خودکار: شبکه های عصبی هستند که یاد مى كيرند داده هاى ورودى خود را بازسازى كنند. با آموزش يك ‏رمزكذار خودكار بر روى داددهاى معمولى. مدل ياد مىكيرد كه داددها را به صورت ویژگی با ابعاد بايينتر رمزكذارى كرده و لن را براى بازسازى ‏داده‌های اصلی رمزگشایی کند. ناهنجاری ها را می توان بر اساس خطای بازسازی بالا تشخیص داد.

صفحه 198:
9 ادامه..؟ ۴. مدل‌های مولد عمیق: مدل‌های مولد عمیق مانند ماشین‌های بولتزمن عمیق (081۷])» شبکه‌های باور عمیق (08۷) و شبکه‌های تصادفی مولد ‎aati ely pi (GSN)‏ ناهنجاری استفاده شده‌اند. این مدل‌هاء الگوها و توزیع‌های پیچیده داده‌های عادی را ثبت می‌کنند و می‌توانتد ناهنجاری‌ها را بر اساس تخمين احتمال با خطای بازسازی شناسایی کدند. ۵. مدل‌های جریان عادی: مدل‌های جریان عادی. مدل‌های تولیدی هستند که یک سری تبدیل‌های معکوس را برای نگاشت یک توزیع ساده (مثلاً گاوسی) به یک توزیع داده پیچیده یاد می‌گیرند. این مدلها برای تشخیص ناهنجاری با تخمین احتمال یک نمونه معین تحت توزیع آموخته شده. استفاده شده اند #۶ماشین های بردار پشتیبان یک کلاسه (6۷/1۷)اگرچه مدل های مولد به معنای دقیق آن نیستند. ‎٩۷۷‏ های یک کلاسه اغلب برای تشخیص ناهنجاری استفاده می شوند. لین مدلها یک مرز تصمیم گیری در اطراف نمونه های داده معمولی را ید می گیرند و ناهنجاری هلیی که خارج از لين مرز قرار می گیرند به عنوان نقاط پرت طبقه بندی می شوند. کی سل هی ولد تقاط فرب و ‎yg ely clog‏ را لليف تس شار الي اف سل مه یوهای خاسس رنه م ویوگی های ناد ها پستگی دارد. ارزيلبى و مقايسه مدل هاى مختلف توليدى بر اساس عملكرد. مقياس يذيرى و استحكام آنها براى اطمينان از تشخيص ناهنجارى موثر. د يار میم

صفحه 199:
۰ مفهوم تقطیر دانش در بادگیری عمیق چیست؟ تقطیر دانش تکنیکی در یادگیری عمیق است که در ن یک مدل کوچکتر. به نام مدل دانشجویی: براى تقليد از رفتار يك مدل بزركتر و پیچیده قره معروف به مدل معلم آموزش داده می شود. هدف از تقطیر دانش, انتقال دانش و قابلیت های تعمیم الگوی معلم به مدل دانش آموز کوچکتر است. فرآیند تقطیر دانش شامل آموزش مدل دانشجو بر روی یک تابع زیان ترکیبی ااست که شامل دو جزء ااست: ۱. اهداف نرم: مدل معلم در طول آموزش؛ اهداف نرمی را در اختیار مدل دانش آموز قرار می دهد. مدل معلم به جای استفاده از برچسب‌های سخت (بردارهاى :006-1001 ) که معمولاً در یادگیری با نظارت سنتی استفاده می‌شود. توزیع احتمال را بر روی کلاس‌ها برای هر ورودی تولید می‌کند. لین اهداف نرم اطلاعات دقیق تری در مورد روابط بين كلاس ها ارائه مى دهند و می توانند برای هدایت فرآیند یادگیری مدل دانش آموز استفاده شوند. ۲ اهداف سخت: علاوه بر اهداف نرم. مدل دلنش آموز نیزبا استفاده از برچسب های سخت معمیلی از داده های آموزشی. آموزش داده می شود. اهداف سخت نشان‌دهنده برچسب‌های حقیقت مبنا هستند و برای اطمینان از اینکه مدل دانش‌آموز یاد می‌گیرد پیش‌بینی دقیق در مجموعه آموزشی را پیاموزد. استفاده می‌شود. در طول آموزش. هدف مدل دانش آموز به حداقل رساندن اختلاف بین پیش بینی های خود و اهداف نرم ارائه شده توسط مدل معلم. و همچنین اختلاف بين بيش بينى های خود و اهداف سحت از داده های آموزشی است. با ترکیب هر دو منبع اطلاعاتى» عدل دانش آموز نه تنها مى آعوزد كه رفتار الكوى معلم را تقليد كند. بلكه به تنهابى بيش بينى های دقیق را نیز انجام دهد.

صفحه 200:
۰ ادامه...؟ مزایلی تقطیر دانش عبارتند از ۱ فشرده سازی مدل: مدل دانش آموز معمولا کوچکتر و سبک تر از مدل معلم است. تقطیر دانش امکان فشرده‌سازی مدل. کاهش آثر حافظه و نیازهای محاسباتی مدل را در عين حفظ یا حتی بهیود عملکرد آن فراهم می‌کند. ۲ بهبود تعمیم: مدل معلم اغلب یک مدل بزرگتر و قدرتمندتر است که بر روی یک مجموعه داده بزرگتر یا برای مدت طولانی تر آموزش داده شده است. با انتقال دانش از مدل معلم به مدل دانش آموز. مدل دانش آموز می تواند از قابلیت های تعمیم مدل معلم بهره مند شود و منجر به بهبود عملکرد در داده های دیده نشده شود. ؟. يادكيرى جمعى: تقطير دلنش را مى توان به عنوان شکلی از یادگیری جممی دید. که در آن مدل معلم به عنوان مجموعه ای از مدل های متعدد عمل می کند.با تقطیر دانش از مدل معلم. مدل دانش‌آموز به طور موثر از مجموعه پیش‌بیتی‌های معلم استفاده می‌کند و در نتیجه استحکام و دقت را بهبود می‌بخشد. تقطیر دانش با موفقیت در حوزه های مختلف از جمله طبقه بندی تصویر, تشخیص اشیاء پردازش زبان طبیعی و تشخیص گفتار به کار گرفته شده است. این مدل راهی برای استفاده از دانش بدست آمده توسط مدل های بزرگ و پیچیده و انتقال آن به مدل های کوچکتر. امکان یادگیری کارآمد و موثر در محیط های محدود به منابع راء فراهم می کند.

صفحه 201:
۱ چگونه می توان از تقطیر دانش برای انتقال دانش از مدل بزرگتر به مدل کوچکتر استفاده کرد؟ برایانتقال دانش از یک مدل بزرگتر (مدل معلم) به یک مدل کوچکتر (مدل دانش آموزی) با اسفاده از تقطیردانش, معمولاً شامل مراحل زير مى شود: ‎١‏ بيش آموزش مدل معلم: ابتداء مدل معلم بر روى يك مجموعه داده بزرك يا براى مدت طولانى ترى از قبل آموزش داده می شود نا دانش مورد نظر و قابليت هاى تعميم را به دست آورد. اين مدل معلم به عتوان متبع دانش برای انتقال به الگوی داتش آموز عمل ‎ge‏ کند. ‏۲.آماده سازی داده های آموزشی: در مرحله بعد. یک مجموعه داده آموزشی آماده مى شود که شامل نمونه های داده های ورودی و برچسب های سخت ‏مربوط به آنها (برچسب های حقیقت مبنا) است. از همین مجموعه داده می توان برای آموزش مدل های معلم و دانش آموز استفاده کرد. ‏۳ ایجاد اهداف نرم: با استفاده از مدل معلم از قبل آموزش دیده. اهداف نرم برای مجموعه داده آموزشی تولید می شود. مدل معلم به جای تولید برچسب‌های سخت (بردرهای 0106-1101 ). توزيع احتمال را بر روی کلاس‌ها برای هر نمینهورودی «خروجی می‌دهد. لین اهداف نرم اطلاعات آموزنده و ظریف تری را در مورد روابط بين كلاس ها ارائه مى دهند. ‎ ‏۴ آموزش مدل دانشجویی: مدل دانش آموز با استفاده از ترکیبی از اهداف رم و برچسب های سخت آموزش داده می شود. فرآیند آموزش شامل به حداقل رساندن دو جزء تابع زیان است: ‎I‏ زیان تقطیر:زیانتقطیر اختلاف بین پیش بینی های مدل دلنش آموز و اهداف نرم الئه شده توسط مدل معلم را اندزه گیری می کند. لین کار الگوی دانشآموز را تشویق می‌کند تا رفتر الگوی معلم را تقليد كند و دانش معلم و فرآ يندهاى تصميمكيرى را به دست أورد. بر ‏ب زيان آنتروبى متقليل منظم: در کنر زیانتقطیر, مدل دانشجوبی نیز با استفاده از زیانآنتروبی متقلبل منظم آموزش داده می‌شود و پیش‌بینیهای آن ‏را با برچسب‌های سخت مقایسه می‌کند. ‎

صفحه 202:
‎AY‏ ادامه...؟ ‏مجموعه داده هاى آموزشی این تضمین را مى كند كه مدل دانش آموز ياد مى كيرد كه پیش بینی های دقیقی را در مجموعه آموزشی نیز نجام دهد. ‏۵ تنظیم دقیق اختیاری» پس از آموزش اولیه. مدل دلنش آموز را می توان با استفاده از فرآیندآموزشی منظم. دقیق تر تنظیم کرد و بارامترهاى مدل ‏را برای تناسب بهتر با داده های آموزشی تنظیم کرد. این مرحله به مدل دانش آموز کمک می کند تا با ویژگی های خاص مجموعه داده سازگار شود. ‏با آموزش مدل دانش آموزی با استفاده از ترکیبی از اهداف نرم و برچسب های سخت» تقطیر دلنش, انتقال دانش از مدل معلم به مدل دانش آموز را تسهیل می کند. اهداف نرم. فرآیند یادگیری مدل دانش‌آموز را هدلیت می‌کنند و آن را قادر می‌سازند تا اطلاعات غنی و قابلیت‌های تعمیم الگوی معلم را به دست آورد. در نتیجه. مدل دانش آموز به یک مدل کوچکتر و کارآمدتر تبدیل می شود که می تولندرفتار مدل معلم بزرگتر را تقريب بزند وبه ‏تنهایی پیش بینی های دقیقی انجام دهد. ‏توجه به لین نکته مهم است که جزئیات اجرای خاص تقطیر دانش ممکن است بسته به معماری و چارچوب مورد استفاده متفاوت باشد. استراتژی‌های ‏تنظیم دقیق, مقیاس‌بندی دماء و تکنیک‌های دیگر نیز می‌توانند برای بهینه‌سازی فرآیند انتقال دانش و بهبود عملکرد مدل دانش‌آموز استفاده شوند. ‎

صفحه 203:
۳۲ مفهوم یادگیری چند شات را در یادگیری عمیق توضیح دهید. یادگیری چند شات زیرشاخه ای از یادگیری عمیق است که بر مدل های آموزشی برای شناسایی و طبقه بندی کلاس ها یا اشیاء جدید با داده های آموزشی برچسب گذاری شده محدود تمرکز دارد. در رویکردهای یادگیری عمیق بسنتی, مقدارزیادی دادهبرچسب گذاری شده برای آموزش موشر مدل‌ها مورد نياز است. با اين حال. در سناريوهاى دنياى واقعى. جمعآورى تعداد زیادی نمونه برچسب‌گذاری شده برای هر کلاس جدید می‌تواند غيرعملى يا زمانبر باشد. هدف یادگیری چند شات رفع این چالش با توانمندسازی مدل‌ها براییادگیری از تعداد کمی از نمونههای برچسب گذاری شده مفهوم یادگیری چند شات از لین الهام گرفته شده است که چگینه انسان ها می توانند.به سرعت یاد بگیرند که اشیاء جدید را تنها با چند نمونه یا حتی یک مثال واحد تشخیص دهند و طبقه بندی کنند. هدف .توسعه الگوریتم‌ها و تکنیک‌هایی است که به مدل‌های یادگیری عمیق اجازه می‌دهد در شرایطی که داده‌های آموزشی برای کلاس‌های جدید کمیاب است. به عملكرد مشابهى دست يايند. چندین رویکرد برای یادگیری چند شات وجود دارد. اما یک چارچوب رلیج شامل استفاده از یک مجموعه پشتیبلنی و یک مجموعه پرس و جو در طول آموزش است. مجموعه پشتیبانی شامل تعداد کمی از نمنه‌های برچسب گذاری شده از کلاس‌های جدید است. در حللی که مجموعه پرس و جو شامل نمونه‌های بدون برچسب است که مدل روی آنها پیش‌بینی می‌کند.

صفحه 204:
۲ ادامه. در طول آموزش. مدل ياد مى گیرد که از مجموعه پشتیبانی تعمیم دهد و روی مجموعه پرس و جو پیش بینی کند. اين فرآیند را می توان از طریق تکنیک های مختلفی به دست آورد. از جمله: ۱ یادگیری متریک: هدف روش های یادگیری متریک یادگیری متریک فاصله يا اندازهگیری شباهت است که می تواند به طور موثر شباهت پین نمونه های يشتيبلنى و برس و جو را مقايسه كند. با تعريف يك متريك مناسب. مدل مى تواند بر اساس شباهت بين نمونه های پشتیبنی و برس و جوبه كلاس هاى جديد تعميم دهده . فرا-يادكيرى: فراسيادكيرى يا يادكيرى براى يادكيرئ: بر مدل هاى آموزشى تمركز مى كند تا به سرعت با وظايف يا كلاس هاى جديد با داده هاى مخدود سازگار شود. هدف الگوریتم‌های فرا يادكيرى. يادكيرى فرامدلى اسث كه مىتولند به وظليف يا كلاسهاى مختلف تعميم داده شود و بتولند به سرعت پارامترهای آن را بر اتلس مجموعه يشتيباتى تطبيق دعد ةا ييشربيتىهاى حقيقى روى مجموطة يرس و جو انجام دهد. ؟اداده افزليى: تكنيك هاى داده افزليى را مى توان ‎sly‏ افزليش مصنوعى تنوع و تغییرپذیری مجموعه پشتیبانی اعمال کرد.بااعمال تبدیل ی اختلال به چند نمونه يشتيباتى موجوف مدل موتوائد تعميم و بيش بينى مؤئر د, مجموعه يرس و جِواوا بياموزد ؟. مدل هاى مولد: مدل هاى مولد را مى توان براى توليد نموته هاى مصنوعى براى كلاس هاى جديد بر اساس مجموعه يشتيبانى محدود استفاده كرد. با ايجاد تقاط داده اضافی, مدل می تواند از مجموعه داده های تقویت شده بهره مند شود و عملکرد خود را در مجموعه پرس و جو بهبود بخشد. آموزش چند شات کاربردهای مختلفی از جمله تشخيص تصوير, تشخيص اشيا و بردازش زبان طبيمى دارد. لين كار مدل‌ها را قدر م‌ساز تاه سرعت کلاس‌ها یا اشیاء جدید را با داده‌های برچسب‌گذاری‌شده محدود تطبیق داده و شناسایی کنند. و در شرایطی که جمع‌آوری داده‌های برچسب گذاری‌شده گسترده برای هر كلاس جديد چالش‌برنگیز ی پهزینه اس ارزشمتد است. تحقیقاتی در یادگیری چند شات با هدف توسعه لگوریتم‌ها و تکنیک‌های موثرتربرای رسیدگی به جلش‌هاو بو هکره مدا در إين حيط در خال اجام له

صفحه 205:
۳ چند تکنیک برای یادگیری چند شات نام ببرید. چندین تکنیک براییادگیری چند شات توسعه داده شده است. در اینجا چند ریکرد محبوب وجود داد 1. بادگیری متریک: هدف رویکردهای بلاگیری متریک؛ بادگیری فاصله مناسب یا انازه گیری شياهت پین نمونه ها استد شبکه های اولیه یک رویکرد یادگیری متریک رایج برای یادگیری چند شات است. در این تکنیک .فضای ویژگی را می آموزد که در آن نمونه هایی از یک کلاس نزدیک به هم هستند و نمونه هایی از لاس های مختلف از هم دور هستند. در لول استنتح. مدل فواصل بین نمونه های پرس و جو و ویژگی نمونه اوليه "کاس های چنلا شات را برای پیش بینی مجاسبه می کند. .0 فرا یادگیری مدل-آگنوستیک (-1/141/11): ‎Ss MAML‏ )9,59 1,5 یادگیری است که هدف ّن یادگیری پارامترهای اولیه است که می تولند به سرعت با وظایف یا کلاس های جدید با چند مثال برچسب گذاری شده سازگار شود. ]۷1۵۸0 با بهینه سازی برای تطبیق سریع. مدلی را برای تعمیم یه وظلیف مختلف آموزش می دهد لین تکنیک میک مقداردهی اولیه مخبترک را می آموزد که می تولند با تعداد کمی از مراحل گزادیان در كارهاى جديد در طول استنتاج .به خوبى تنظيم شود. ۳ مدل‌های مولد: مدل‌های مولد؛ مانتد شبکه‌های مولد تخاصمی ((3/۸)) یا رمزگذارهای خودکار متفیر (۷/۸25). می‌توانند برای یادگیری چند شات با تولید نمونه‌های جدید برای کلاس‌های چند شات استفاده شوند. با ایجاد نقاط داده اضافی. مدل می تواند به طور موثر مجموعه داده برچسب گذاری شده محدود را افزایش دهد و عملکرد خود را در مجموعه پرس و جو بهبود بخشد.

صفحه 206:
۳ دامه.... ۴ داده افزایی: تکنیک های داده افزایی را می توان برای افزایش مصنوعی تنوع و تغییرپذیری داده های برچسب گذاری شده محدود به کار برد. با اعمال تبدیل‌ها, آشفتگی‌ها یا افزودن نمونه‌هایی با ویژگی‌های سنتز شده. مدل می‌توند تعمیم بهتر و بهبود عملکرد خود را در مجموعه برس و جو بياموزد. ۵ فرا یادگیری یا حافظه: مدل های تقویت شده حافظه. مانند شبکه های حافظه یا ماشین های تورینگ عصبی, می توانند برای یادگیری چند شات استفاده شوند. این مدل ها دارای یک جزء حافظه خارجی هستند که به آنها امکان ذخیره و بازیلبی اطلاعات وظلیف یا نمونه های قبلی را می دهد با استفاده از حافظه. مدل مى تواند به سرعت با وظايف يا كلاس هاى جديد با داده های برچسب گذاری شده محدود سازگار شود. ع مكانيزمهاى توجه: مكانيزمهاى توجه را مىتوان در مدلهاى يادكيرى جند شات براى تمركز بر اطلاعات مرتبط كنجاند. مكانيزمهاى توجه به مدل کمک مىكنند تابه طور انتخلبى به ويزكىها يا نمونههاى مهم در طول آموزش و استنتاج توجه كند وبه آن اجازهمی‌دهد تابه طور موثر از داده‌های برچسب گذاری شده محدود استفاده کند و عملکرد مجموعه برس و جو را بهيود بخشد. لین تکنیک‌ها رویکردهای مختلفی را برای مقابله با چللش یادگیری چند مرحله‌ای ارلئه می‌کنند و مدل‌ها را قادر می‌سازند تا از تعداد کمی از نمونه‌های برچسب گذاری شده تعمیم دهند. محققان به طور مداوم در حال کاوش و توسعه تکنیک های جدید برای بهبود عملکرد مدل های یادگیری چند شات و گسترش کاربرد آنها در حوزه ها و وظایف مختلف هستند.

صفحه 207:
۴ مفهوم فرا یادگیری در بادگیری عمیق چیست فرا-یادگیری, همچنین به عنوانیادگیری برای یادگیری شناخته می شود.زیرشاخه ای از یادگیری عمیق است که بر روی مدل های آموزشی تمرکز مى كند تنا سريعاً وظايف يا مفاهيم جديد را با داده های محدود تطبیق دهد و ید بگیر.ايدهکلیدی در پس فرا یادگیری, توسعه الكوريتمها و معمارىهايى است كه مىتوانند يك داش فراسطحی یا قبل از توزیع وظایف يا مجموعه دادهها را بياموزند. كه سيس مىتوانند يراى كارهاى جديد و دیده نشده اعمال شوند. در یادگیری عمیق سنتی. مدلها معمولاً برای عملکرد خوب در یک کار یا مجموعه داده خاص, آموزش داده می‌شوند. با این حال. آنها اغلب هنگام مواجهه با وظایف یا دامنه‌های جدیدی که داده‌های برچسب‌گذاری شده محدود یا در دسترس نیستند. با مشکل مواجه می‌شوند. فرایادگیری با هدف غلبه بر این محدودیت با استفاده از مدل‌های آموزشی به منظور دستیابی به توانانی یادگیری قابل تعمیم‌تر است. مفهوم فا یادگیری را می تون از طریق مولفه های زیر درک کرد افرآموزش: در طول مرحله فراآموزش, مدل در معرض توزیع وظایف یا مجموعه داده ها قرر می گیرد. هر کار شامل یک مجموعه آموزشی و یک مجموعه آزمون است. این مدل برای یادگیری از مجموعه آموزشی هر وظیفه و بهینه سازی پارمترهای ن آموزش دیده است تا برای تطبیق سریع و عملکرد خوب در مجموعه آزمون مربوطه اعمال شود. ۲ فراهدف: فراهدف تلبع هدف است که برای هدایت آموزش مدل استفاده می شود. عملکرد مدل را در مجموعه آزمایشی هر وظیفه اندازه گیری می کند و برای‌به روز رسانی پارامترهای مدل استفاده می شود. فراهدف مدل را تشویق می‌کند نا مجموعه‌ای از پارامترهای مشترک را بیاموزد که می‌توانند به راحتی با وظایف جدید تنظیم شوند.

صفحه 208:
۴ ادامه..؟ ۳ الگوریتم فرا يادكيرى: الكوريتم فرا يادكيرى نحوه به روز رسانی پرامترهای مدل را بر اساس فراهدف مشخص می کند. روش‌های مبتبی بر گرادیان» مانند (30189ع 1163-1 00516و ك8-اع1100) 181/1 معمولاً در فرا یادگیری استفاده می‌شوند. هدف این الگوریتم ها یافتن یک مقداردمی اولیهپارامترهای مدل است که می توانتد به سرعت در کارهای جدید در مرحله فراآزمایی تنظیم شوند. ؟. فرآزمیی: در مرحله فراآزملیی, مدل بر روی وظلیف جدید و دیده نشده ای که در مرحله فراآموزشى با آنها مواجه نشده لند. ارزيليى مى شود. توانليى مدل برای تعمیم و انطباق با وظایف جدید با اندازهگیری عملکرد آن در مجموعه‌های آزمایشی این وظیف. ازیابی می‌شود. هدف فرایادگیری» آموزش مدل هلبی است که می توانند وظلیف با حوزه ها را تعمیم دهند. از چند متال با مقدار کمی داده باد بگیرقد وبه سرعت با وظلیف جدید و دیده نشده سازگار شوند. با استفاده از دلنش فراسطحی که در مرحله فراآموزشی به دست می‌آید. فرا یادگیری مدل‌ها را قادر می‌سازد تا به طور موثر از دادههاى محدود بياموزند و در وظليف جديد به خوبی عمل کنند. و در سناريوهايى که داده‌های برچسب‌گذاری شده کمیاب يا پرهزینه هستند. اررشمند مي شوند. فرا یادگیری در حوزه های مختلفی از جملهیادگیری چند شات. يادكيرى تقويتى: بهينه سازى و طراحى الكوريتم كاريرد بيدا كرده است. فراياد كيرى يك حوزه تحقيقاتى فعال با هدف توسعه مدل هلیی است که می توانند به طور کارا سازگار شوند. مد و موثر از داده های محدود بياموزند و به راحتی با وظلیف جدید

صفحه 209:
‎AD‏ چگونه می توان از فرا یادگیری برای بهبود عملکرد مدل های یادگیری عمیق استفاده کرد؟ قرايادكيرى را مى توان براى بهبود عملكرد مدل های یادگیری عمیق به روش های مختلفی مورد استفاده قرار داد: ‎.١‏ يادكيرى جند شات: فرا يادكيرى مى تولند مدل ها را قادر سازد تابه سرعت كلاس هايا وظايف جديد رابا داده هاى برجسب كذارى شده محدود وفق دهند و ید بگیرن. با آموزش توزیع وظایف در مرحله فرآموزشی, مدل مجموعه‌ای از بارامترهاى مشترك را می‌آموزد كه به راحتی می‌تونند در مرحله فراآزملیی با وطلیف جدید تنظیم شوند. لین کار به مدل اجازه می دهد نابه خوبی از چند مثال برچسب گذاری شده تعمیم پلبد و عملکرد آن را در سناریوهای یادگیری چند شات بهبود بخشد. ‏۲ یدگیری انتقلی: فا یادگیری می تواند با یادگیری دانش فراسطحی یا قبل از وزیع وظایف یا مجموعه داده هء یا گیری انتقالى بهتر را تسهیل کند دلنش فراآموخته شده را مى توان براى مقداردهى اوليه بارامترهاى مدل مورد استفاده قرار داد. كه سيس مى تولد بر روی یک وظیفه یا مجموعه داده هدف يه دقت تنظيم شود. اين مقداردهى اوليه به مدل اجازه مى دهد تا از دانش قبلى خود استفاده كند و سريعتر يا وظيفه هدف سازكار شود و به طور بالقوه عملکرد خود را بهبود بخشد. ‏۳ بهینه سازی تطبیقی:فرا یادگیری می تولند خود لگوریتم یادگیری را پهینه کند و مدل را قادر می سازد تا فرآیند بهینه سازی خود را با وظلیف یا مجموعه داده های مختلف تطبیق دهد با آموزش توزيع وظايف با ویژگی‌های متفاوت. مدل می‌تواند ید بگیرد که نرخ یادگیری. منظم‌سازی یا سایر هايبربارامترهاى خود را به صورت پویا تطبیق دهد. لین بهینه سازی تطبیقی, كارايى و اثربخشی فرآیند یادگیری را بهبود می بخشد و منجر به بهبود عملکرد می شود ‎

صفحه 210:
۵ ادامه...؟ ۴ یادگیری تقویتی: فرایادگیری را می توان برای وظلیف یادگیری تقویتی ‎٩1‏ به کار برد تا ارایی یادگیری را بهبود بخشد. با آموزش توزیع وظایف ‎RL‏ مدل می تواند سیاستی را بیاموزد که به خوبی به وظایف جدید تعمیم می دهد و به سرعت یا محیط های در حال تفییر سازگار مى شود. سیاست‌های فرا آموخته‌شده می‌توانند نیاز به کاوش گسترده و یادگیری آزمون و خطا را کاهش دهند و منجر به همگرلیی سریع‌تر و بهبود عملکرد ‎RL‏ شوند. بهيته سازى هايبريارامتر: فرا-يادكيرى مى تولند به خودكارسازى فر يند بهينه سازى هايبريارامتر كمك كند.با آموزش انواع وظليف يا مجموعه داده هاء مدل مى تولند انتخاب هایپرپارامترهای مناسب بر اساس ویژگی های وظیفه يا مجموعه داده را بياموزد. لين دلنش فرا آموخته شده را مى توان براى هدايت جستجوى هايبربارامترهاى بهينه. صرفه جويى در زمان و منابع در فرآيند تنظيم هايبربارامتر استفاده كرد. فرايادكيرى جارجوبى را براى مدلهاى آموزشى ارلئه مىدهد تا توانایی‌های یادگیری فابل تعمیم رابه دست آورند. سریع با وظلیف یا حوزه‌های جدید سازگار شوند و خود فرآیند یادگیری را بهینه کنند. با استفاده از تکنیک‌های فرا یادگیری, مدل‌های یادگیری عمیق می‌توانند عملکرد خود را در سناریوهایی با داده‌های برچسب‌دار محدود. تتظیمات یادگیری انتقالی. وظایف ‎٩1‏ و وظایف بهینه‌سازی هایپرپارامتر بهبود بخشند. تحقیقات در فرا یادگیری با هدف توسعه لگوریتم‌ها و معماری‌های موثرتر رای بهبود عملکرد مدل‌های یادگیری عمیق در حال انجام :

صفحه 211:
۶ مفهوم تطبیق دامنه در یادگیری عمیق را توضیح دهید. تطبیق دامنه یک زیرشاخه از یادگیری عمیق است که با مشکل انتقال دانش آموخته شده از یک دامنه منبع به یک دامنه هدف که در آن توزیع داده ها ممکن است متفاوت باشد. سرو کار دارد. به عبارت دیگر, انطباق دامنه یا هدف پرداختن به کاهش عملکرد مدل‌ها هنگام اعمال به یک دامنه جدید یا داده‌های برچسب گذاری شده محدود است. در سناريوهاى دنياى واقمى. جمع‌آوری مجموعه داده بزرگ برچسب‌گذاری شده برای دامنه هدف اغلب چالش برانگیز است. با این حال, اگر یک مجموعه داده برچسب‌دار از یک دامنه متبع متفاوت اما مرتبط در دسترس باشد. می‌توان از آن برای بهبود عملکرد مدل‌ها در دامنه هدف استفاده کرد. هدف از تطبیق دامنه. استفاده از داده های برچسب گذاری شده از دامته منیع برای تطبیق مدل با دامنه هدف است. مفهوم تطبیق دامته را می توان از طریق مولفه های زیر درك كرد ۱ دامنه منبع: دامنه منبع به دامته ای اطلاق می شود که داده های برچسب گذاری شده در آن موجود است و برای آموزش مدل اولیه استفاده می شود. این دامنه ممکن است توزیع داده. ویژگی ها یا زمینه متفاوتی در مقایسه با دامنه هدف داشته باشد. ۲.دامنه هدف: دامنه هدف به دامنه ای اطلاق می شود که انتظار می رود مدل در آن عملکرد خوبی داشته باشد اما داده های برچسب گذاری شده مجدود یا در دسترس نیستند. هدف تطبیی مدل آموزش‌دیده در حوزه سنبع برای عملکرد موثر در دامته هدف است. ‎alls 7‏ »تشر قاس یه تقلوت در توزيم ده هایس ناه منم . هدف آشارهدارد لس تقرمی توقد یم دلبل تخیرات در ویدگی های ورودی» عوامل محیطی. شرليط اكتساب با ساير عوامل خاص يراى هر حوزه ايجاد شود. وجود تغيير دامنه چالشی را در اعمال مستقیم مدل‌های آموزش‌دیده در دامنه منبع به دامنه هدف ایجاد می‌کند. ‎

صفحه 212:
۶ ادامه.... ۴ تکنیک های تطبیق: تکنیک های مختلفی برای مقابله با مشکل تطبیق دامنه به کار گرفته مى شود. هدف لين تكنيك ها تراز كردن يا انتقال دا آموخته شده از دامنه منبع به دامته هدف است. برخی از رویکردهای رلیچ عبارتند از هم‌ترازی ‎Shey‏ که در آن نملیش ویژگی‌های دامنه منبع و هدف مشابه هستند. و آموزش خصمانه. که در ن یک متمایزگر دامنه معرفی می‌شود تا مدل را تشویق کند تا ویژگی‌هایی را تولید کند که دامنه‌ناپذیر ۵. داده های بدون برچسب: در بسیاری از سناریوهای تطبیق دامنه» داده های برچسب دار در دامنه هدف کمیاب هستند. برای غلیه بر این چالش, می‌توان از تکنیک‌های تطبیق دامنه بدون نظارت استفاده کرد. که در آمن انطباق فقط یا استفاده از داده‌های برچسب‌گذاری: داده‌های بدون برچسب از دامته هدف انجام می‌شود. تطبیق دامنه در کاربردهای مختلفی که در آن مدل‌های آموزش‌دیده شده در یک دامنه بلید در دامنه دیگری اعمال شوند. مهم است. به عنوان مثال» در بیتایی کامپیوتر. تطبیق دامنه زمانی مفید است که مدل‌هایی که روی یک مجموعه از تصاویر آموزش داده شده‌اند. باید روی مجموعه‌ای از تصاویر گرفته‌شده در شرایط مختلف یا از منیعی متفاوت اعمال شوند. با تطبیق موثر مدل ها در دامنه هدف تطبیق دامنه باعث بهیود عملکرد و تعمیم در برنامه های کاربردی دنیای واقعی می شود.

صفحه 213:
‎AV‏ چند تکنیک برای تطبیق دامنه نام ببرید. ‏چندین تکنیک یرای تطبیق دامنه وجود دارد که هدف آنها حل چالش انتقال دانش از یک دامنه متبع به یک دامنه هدف یا توزیع داده های مختلف است. در اینجا ‏چند تکنیک محبوب وجود دارد: ‎.١‏ روشهاى مبتتى بر ویزگی: روس‌های مج بر ویزگی بر تراز كردن تمايثرهلى ويزكىهاى دإمنه مدبع و هدف تمركز دارند. هدف اين روشها يلفتن غضاى ويذكى مشترك است كه در آن توزيعهاى دو دامنه همبوشلنى دارند. برخى از تكنيك هاى رليج عبارتند از: حداكثر اختلاف میانگین (۷10]0), تجزیه و تحلیل مولفه اصلی (048©). و تجزيه و تحليل همبستكى متعارف (008©). اين روشها مويزكى هاى آموختهشده را تشويق مىكنند كه دامنهاى متغير يا تطبيقى با دامنه داشته باشند. اميزش خصمائه: آهوزش عصمانه یک رویکرد محبوب برای تطییق دامنه است که اغلب در ترکیس با يادكيري عميق استفاده مى شود در اين رويكرد ياك متمایزگر دامنه در کنار مدل وظیفه اصلی. معرفی می‌شود. متمایزگر دامنه سعی می‌کند بین نمونه‌های منبع و هدف بر اساس نمايش ويزكىهايشان تمايز قائل شود. در حللی که وظیقه اصلی مدل تولید ویژگی‌هلیی است که توسط متمایزگر دامته قلبل تشخیص نیستند. لین آموزش خصمانه مدل را تشجیق می کند تا ویژگی های. ناستقیر دامنه را بیموزد ‏۲ روش‌های مبتنی بر نمونه: هدف روش‌های مبتنی بر نمونه. وزن‌دهی مجدد يا انتخاب نمونه‌ها از دامنه منبع برای شبیهتر کردن آنهابه دامنه هدف است. لین کار ‏را می توان با اختصاص وزن های بالاتر بهنمونه های منبع که مشابه تموته های هدف هستند یا با انتخاب زیرمجموعه ای از نمونه های منبع که پیشترین ارتباط را با ‏دامنه هدف دارند یه دست آورد. برخی از تکنیک ها عبارتند از اهمیت وزن, خودآموزی, و آموزش مشترک:

صفحه 214:
۷ ادامه... ۴بازسازی دامنه: هدف روش های بازسازی دامنه بازسازی داده های دامنه منبع با استفاده از داده های دامنه هدف است. ایده این است که یک نقشه برداری از دامنه هدف به دامنه منبع را یاد بگیرید و سپس نمونه های دامنه منبع رابا استفاده از لین نگاشت بازسازی کنید. با به حداقل رساندن زیان بازسازی, مدل می تواند دو دامنه را تراز کند و نمایش های نامتفیر دامنه را ياد بكيرد. ۵. آموزش انتقللی: تکنیک‌های یادگیری انتقللی. مدل‌های از پیش آموزش‌دیده‌شده در دامنه متبع را برای مقداردهی اولیه یا تنظیم دقیق مدل در دامنه هدف, به کار می‌گیرند. ایده لین است که دانش آموخته شده را از دامنه منبع به دامنه هدف منتقل کنید. وبه مدل اجازه دهید با یک مقداردهی اولیه خوب شروع کند یابه سرعت با دامنه هدف سازگار شود. تکنیک‌هلیی مانند تنظیم دقيق. جراحی شبکه و تقطیر دلنش معمولاً در یادگیری انتقللی برای تطبیق دامنه استفاده می‌شوند. ۶ تطبیق دامنه بدون نظارت: هدف تکنیک های تطبیق دامنه بدون نظارت تطبیق مدل ها پا دامنه هدف تنها با استفاده از داده های برچسب دار از دامنه منبع و داده های بدون برچسب از دامنه هدف است. این روش‌ها معمولاً از تکنیک‌های یادگیری بدون نظارت مانند خوشه‌بندی, خودآموزی یا مدل‌های مولد برای تراز کردن دو دامنه و یادگیری نمایش‌های نامتفیر دامنه بدون تکیه بر برچسب‌های دامنه هدف استفاده می‌کنند. این تکنیک‌ها رویکردهای مختلفی را برای رسیدگی به مشکل انطباق دامنه با همسو کردن توزیع‌های ویژگی, به حداقل رساندن اختلاف دامنه. یا استفاده از استراتژی‌های یادگیری انتقللی ارلئه می‌کنند. انتخاب تکنیک به ویژگی‌های خاص دامنه متبع و هدف. در دسترس بودن داده‌های برچسب‌دار یا بدون برچسب و پیچیدگی کار تطبیق بستگی دارد. محققان به کشف و توسعه تکنیک‌های جدید برای بهبود عملکرد روش‌های انطباق دامنه و کاربردی‌تر کردن آن‌ها در ستاریوهای دنیای واقعی ادامه می‌دهند.

صفحه 215:
۸ مفهوم تطبیق دامنه بدون نظارت چیست؟ تطبیق دامنه بدون نظارت؛ تکنیکی در بادگیری عمیق است که هدف لن اتطباق مدل آموزش دیده در یک دامنه منبع برای عملکرد خوب در دامته هدف بدون استفاده از داده های برچسب گذاری شده از دامنه هدف است. این تکنیک به چالش تفییر دامنه. که در آن توزیع داده در دامنه هدف با کلسته منم متفاوت است. مى پرنازد. ایده اصلی پشت تطبیق دامنه بدون نظارت. استفاده از داده های برچسب گذاری شده از دامنه منبع و داده های بدون برچسب از دامنه هدف برای یادگیری ویژگی های نامتفیر دامته است. قرض بر لین است. که اگرچه توزیع برچسب‌ها همکن است بین دو دامنه متفلوت باشد. الگوها یا ساختارهای زیربنایی مشترکی وجود دارد که می‌توانند برای بهبود عملکرد در دامنه هدف مورد استفاده قرار گيرند. فرآیند تطبیق دامنه بدون نظارت معمولاً شامل مراحل زیر است: ). آموزش دامته منبع: یک مدل یادگیری عمیق بر روی داده های برچسب گذاری شده از دامنه منبع با استفاده از تکنیک های یادگیری نظارت شده استاندارد آموزش داده مى شود. اين مدل اوليه ياد مى كيرد كه در وظيفه دامنه منبع به خوبی عمل کند. استخراع ويركى: مدل از بيش آموزش داده شده سبس برای استخراج تمایش ویزگی ها از دامنه متیع و داده های دامته هذف بدون برچسب لستفاده می شود. هدف لین است که ويزكىهايى را ياد بكيريم که برای وظیفه متمایز هستند. اما در دامنه نامتغیر نیز هستند. و ویژگی‌های مشترک را در بین دامنه‌ها درک می‌کنند.

صفحه 216:
‎AA‏ ادامه...؟ ‏۳ هم ترازی دامنه: تکنیک هایی مانند تراز ویژگی یا آموزش دامنه تخاصمی برای به حداقل رساندن اختلاف بین توزیع ویژگی های دامته منبع و هدف ‏استفاده می شود. این تکنیک‌ها مدل را تشویق می‌کنند تا ویژگی‌هایی را بياموزند كه بين دو دامنه مشابه یا غیرقایل تمایز هستند. ‏دامنه سپس به عنوان ورودی به طبقه بندی کننده یا مدل دامنه خاص استفاده می شود که بر ‎ ‏۴ تطبیق دامنه هدف: ویژگی های تراز شده یا روی داده های دامنه هدف آموزش داده مى شود تا مرزهای تصمیم خاص هدف را یاد بگیرد. امید این است که ویژگی های نامتفیر دامنه به خوبی به ‏دامنه هدف تعمیم داده شود و منجر به بهبود عملکرد شود. ‏تطبیق دامنه بدون نظارت به ویثّه زمانی مفید است که داده های برچسب گذاری شده در دامنه هدف کمیاب یا گران باشد. یا استفاده از داده‌های بدون برچسب از دامنه هدف. مدل را قادر می‌سازد تا با دامنه هدف سازگار و تعمیم یابده حتی زمانی که نظارت مستقیم در دسترس نیست. تکنیک‌های انطباق دامنه بدون نظارت به طور گسترده در برنامه‌های کاربردی مختلف مانند بینایی کامپیوتره پردازش زبان طبیصی, و تشخیص گفتار برای رفع ‏چالش‌های تغییر دامنه و بهبود عملکرد مدل‌ها در سناریوهای دنیای واقعی استفاده می‌شوند.

صفحه 217:
5. جكونه مى توان تطبيق دامنه بدون نظارت را در يادكيرى عميق انجام داد؟ تطبیق دامنه بدون نظارت در يادكيرئ عسيق را مى توان با استقاده از تكنيك هاى مختلف اتجام داد. در اینجا چند رویکرد رایج وجود دارد: ‎.١‏ آموزش دامنه تخاصمى: در لين رويكرد. يك متمايزكر دامنه به مدل يادكيرى عميق اضافه می شود. این مدل برای به حداقل رساندن همزمان زیان کار له عنوان مثال زيان طبقه بندی) و ‎ay‏ حداکثر رساندن زیان تمایز دامنه آموزش داده شده است. متمايزكر دامنه سمى عى كند بين داده های دامنه منبع و هدف بر اساس نمایش ویژگی های آنها تمليز قائل شود. در حللی که هدف مدل اصلی ایجاد ویژگی هلیی است که توسط متمایزگر دامنه لبل تشخیص نیستند. این آموزش خصمانه مدل را تشویق می کند تا نمایش های نامتغیر دامنه را بیاموزد. ‎ ‏۲ حداکثر اختلاف میانگین ‎«MMD)‏ ۷1۷10 یک اندازه گیری آماری است که تفاوت بین دو توزیع احتمال را حساب می کند. در تطبیق دامنه بدون . از ۷/1۷10] می توان برای به حداقل رساندن اختلاف بین توزیع ویژگی های دامنه منبع و هدف استفاده کرد. با به حداقل رساندن زیان ‎ ‏نظار ‏۷00 مدل تشویق می‌شود تا نمایش ویژگی‌هایی را بیاموزد که بین دو دامنه مشابه یا ‎ ‏بل تمایر هستد. ‎ ‏۲خوداموزی: خودآموزی تکنیگی لست که در لن مدل ابتتا بر روی داده های داسه منبم برچسب دار آموزش داده می شود سيسء اين مدل برای پیش‌بینی داده‌های دامنه هدف بدون برچسب استفاده می‌شود. پیش‌بینی‌های مطمئن روی داده‌های دامته هدف به‌عنوان شبه برچسب‌ها تلقی می‌شوند و مدل با استفاده از این شبه برچسب‌هاء به شیوه‌ای نیمه‌نظارت‌شده بیشتر آموزش داده می‌شود. این فرآیند بین تولید شبه برچسب و بازآموزی مدل تكرار مى شود تا يه تدريج مدل را با دامنه هدف تطبیق دهد.

صفحه 218:
‎٩‏ ادامه..؟ ‎Domain-Adaptive Regularization.+‏ اين تکنیک, اصطلاحات منظم سازی خاص دامنه را در تابع هدف معرفی می کند تا عدم تغییر دامنه را تشویق کند. به عنوان مثال. مدل را می توان برای به حداقل رساندن اختلاف بین آمار ویژگی های دامنه منبع و هدف. مانند میانگین: کواریانس؛ یا گشتاورهای مرتبه بالاتره منظم کرد. با ترکیب منظم سازی دامنه خاص, مدل یاد می گیرد که اختلاف دامته را کاهش دهد و با دامته هدف سازگار شود. ‎ ‏۵ شبکه های مولد تخاصمی ‎(GAN)‏ )3 2/۵) ها می توان برای تطبیق دامنه بدون استفاده کرد. یک ‎Cul alge Se fold GAN‏ که داده های دامنه منبع رابه دامنه هدف تبدیل می کند و یک متمایزگر که سعی می کند بین داده های دامته هدق تولید شده و داده های دامته هدف واقمی تملیز قلثل شود با آموزش ‎GAN‏ مولد ياد مى كيرد كه نموته هلبی شببه به دامنه هدف توليد كند و به طور عوثر مدل رايا دامنه هدف تطبيق دهد. ‏ارت با یادگیری نقشه برداری از دامنه منبع به دامنه هدف ‏۶تقطیر دانش: تقطیر دلدش شامل انتقال دانش آموخته شده از یک مدل از پیش آموزش دیده در دامنه منبع به یک مدل جدید آموزش دیده در دامنه هدف است. مدل از پیش آموزش دیده به عنوان یک مدل معلم عمل می کند و آموزش مدل دامنه هدف را با ارائه برچسب های رم یا نکات دانش راهنمایی می کند. این مدل دامنه هدف را قادر می‌سازد تا از دانش آموخته‌شده در دامنه منبع بهره‌مند شود و عملکرد خود را در دامنه هدف بهبود ‏بخشد. ‏لین تکنیک‌ها رویکردهای متفاوتی را برای تطبیق دامنه بدون نظارت ارلثه می‌کنند. با هدف همسو کردن توزیع‌های ويزكى. به حداقل رساندن اختلاف دامنه» یا انتقال دانش از دامنه منبع به دامنه هدف. انتخاب تکنیک به ویژگی‌های خاص دامنه هاء داده‌های موجود و ماهیت کار تطبیق بستگی دارد. انتخاب و طراحی دقیق تکنیک مناسب بر اساس الزامات و چالش های خاص مسئله انطباق دامنه بدون نظارت مورد نظر. مهم است.

صفحه 219:
۰ مفهوم یادگیری فعال در بادگیری عمیق را توضیح دهید. یادگیری فعال مفهومی در یادگیری عمیق و یادگیری ماشینی است که هدف آن كاهش تلاش برچسب‌گذاری مورد نیز برای آموزش یک مدل با نتخاب فعالانهترین نمونه‌ها برای حاشیه‌نویسی است. برخلاف یادگیری نظارت شده سنتی» که در لن همه نمونه‌های آموزشی از قبل برچس بگذاری می‌شوند. یادگیری فعال به مدل اجازه می‌دهد تا از میان مجموعه داده‌های بدون برچسب. کدام نمونه‌ها را انتخاب کند. فرآیند یادگیری فعال معمولاً شامل مراحل زیر ۱. مقداردهی اولیه: در ابتداء یک مجموعه داده کوچک برچسب گذاری شده در دسترس است که معمولاًبه عنوان مجموعه داده "5660" نامیده می اس تسوت ده 5660 برای آموزش یک سول یله استفاده می شید ۲ انتخاب نمونه: از مجموعه داده های بدون برچسب نمونه برداری می شود و زیر مجموعه ای از نمونه ها با استفاده از استراتزی انتخاب انتخاب می شود. استراتژی انتخاب می تولند بر اساس معیارهای مختلفی مانند عدم قطعیت. تنوع؛ یا پوشش نمایندگی باشد. هدف. شناسایی نمونه هلیی است که برای مدل بسیار آموزنده یا نامطمئن هستند. ۲پرس و جو مدل: نمونه ای انتخاب شده سپس برای حاشیه نویسی یا برچسب گذاری ارسال می شوند. این کار می تواند توسط حاشیه نو اسانی با متخصصان حوزه انجام شود. مدل از برچسب‌های این نمونههای انتخاب‌شده پرس و جو می‌کند تا مقادیر حقیقت مبثا آنها را به دست آورد

صفحه 220:
۰ ادامه.... ۴ به‌روزرسانی مدل: نمونه‌های برچسب‌گذاری‌شده جدید در مجموعه آموزشی گنجانده می‌شوند و مدل با استفاده از مجموعه داده‌های به‌روز شده مجددا آموزش دادمه می‌شود. این مدل به‌گونه‌ای تنظیم شده است که اطلاعات به‌دست‌آمده از نمونه‌های جدید برچسب گذاری شده را در خود جای ۵تکرار: مراحل ۲ تا ۴ به صورت تکراری تکرار می شوند. در هر تکراره مدل نمونه های اضافی را بر اساس عملکرد مدل فعلی و معیارهای انتخاب شده انتخاب می کند. این فرآیند تکراری تا رسیدن به یک سطح عملکرد رضایت بخش یا تا رسیدن به یک معیار توقف از پیش تعریف شده ادامه می یابد. ایده کلیدی پشت یادگیری فعال این است که با انتخاب فعالانه آموزنده ترین نمونه ها برای برچسب گذاری, مدل می تولند با نمونه های برچسب دار کمتر در مقایسه با نمونه گیری تصادفی یا استفاده از یک مجموعه داده برچسب دار ثلبت» عملکرد بهتری داشته باشد. با تمرکز بر نمونه هليى كه برای مدل نامشخص يا دشوار هستند. یادگیری فعال, به هدف قرار دادن تلاش برچسب گذاری در جایی که بیشترین اهمیت را دارد کمک می کند. یادگیری فعال به ویژه زمانی مفید است که برچسب گذاری مجموعه داده‌های بزرگ زمان‌بره پرهزینه یا غیرعملی باشد. این کار مدل را قادر می‌سازد تا از مقدار کمی از داده‌های برچسب‌گذاری‌شده در ابتدا بیاموزد و عملکرد خود را با به‌دست آوردن انتخلبی برچسب‌ها برای آموزنده‌ترین نمونه‌هاء به صورت تدریجی بهیود بخشد. برای انتخاب نموته در یادگیری فعال می توان از استراتژی های مختلفی استفاده کرده مانند نمونه گیری با عدم قطعیت» پرس و جو توسط کمیته. نمونه گیری متنوع و یادگیری فعال بیزی نتخاب استراتژی به مسئله خاص, داده های موجود و ویژگی های مدل تحت آموزش بستگی دارد. کاریی یادگیری فعال به استراتزی انتخاب و تعامل بین مدل و فرآیندبرچسب‌گذاری بستگی دارد

صفحه 221:
۱ چند روش برای یادگیری فعال نام ببرید. روش‌ها و استراتزی‌های مختلفی برای یادگیری فعال وجود دارد که هدف هر کدام انتخاب آموزنده‌ترین نمونه‌ها یرای حاشیه‌نویسی است. در اینجا چند روش متداول استفاده می شود: ۱ تمونه گیری عدم قطمیت: این روش نمونه هایی را انتخاب می کند که مدل در مورد آنها نامطمدن است. از عدم قطعیت پیش‌بینی مدل برای شناسايى نموندها براى حاشيهنويسى استفاده مىكند. براى مثال. تمونههايى با آنترويى بيشبينى يالا (يعنى مدل در مورد كلاس صحيح مطمن نیست) یا نمونه‌هایی با استیازات اطمینان پایین را می‌توان برای برچسب‌گناری انتخاب کرد. ۲ 20۳0۳0۲66)-/0116۲۷-8): این روش شامل حفظ مجموعه ای از چندین مدل یا استفاده از تکرارهای آموزشی مختلف از یک مدل است. مدل‌های موجود در کمیته ممکن است مقداردهی اولیه یا اختلال متفاوتی داشته باشند. اختلاف بین مدل‌ها به عنوان معیار عدم قطمیت استفاده می‌شود و نمونه‌هایی که مدل‌ها بیشترین اختلاف را دارند برای حاشیه‌نویسی انتخاب می‌شوند. ۳ نمونه گیری متنوع: هدف این روش انتخاب نمونه هایی است که طیف متنوعى از توزيع داده ها را پوشش می دهند.تنوع یا نمیندگی نمونه های انتخاب شده راجه جاى عدم فلعيت أنها در نظار مي كيرد. تموندگیری میتی بر خوشه اكه در آن تموتمها از خوشتعلى مختلف در فضای داده اتتغاب مىشوند. و نمونهگیری نماینده, كه در لآن نموندها براى نمليش زيركروهها يا كلاسهاى مختلف انتخاب مىشوند. نمونههليى از تكنيكهاى نمونهكيرى متتو متلق ؟.يادكيرى فعال بيزى: اين روش دانش قبلى در مورد توزيع داده ها را با استفاده از استنتاج بيزى تركيب مى كند. از مدل سازى بيزى براى تخمين توزيع احتمال بسين بر روى بارامترهاى مدل استفاده مى كند. عدم قطعيت یا به دست آوردن اطلاعات بر اساس توزیع پسین برای انتخاب نمونه استفاده مى شود. تكنيك هايى مانند يادكيرى قعال بيزى از طريق اختلاف (8/41-10) و تغيير مدل مورد انتظار (1/1600]) در اين دسته قرار مى كيرند.

صفحه 222:
۱ ادامه... «(اقاه) وطاطجعا ۵ وطنطمعا ۸6۲۷6 ۷۷۱۵۵ 2۱16۲۷-8۷-۵۳۲۱۳۵6۲66): این روش پرس و جو کمیته و یادگیری فعال را با رویکردهای یادگیری ترکیب می کند. از کمیته ای از مدل ها پرای انتخاب نمونه ها در ابتدا استفاده می کند. سپس از نمونه های انتخاب شده برای آموزش مدل جدیدی استفاده می شود که به کمیته اضافه می شود. لین فرآیند تکرار می شود و کمیته مدل ها با پیشرفت آموزش تکامل می یلبد و متنوع تر می شود. ۶ نمونه برداری مبتنی بر تراکم: لین روش نمونه ها را بر اساس چگللی یا نزدیکی آنهابه مرز تصمیم انتخاب می کند. هدف لّن برچسب گذاری نمونه هلیی است که در مناطق پراکنده یا نامشخص فضای داده قرار دارند. برای انتخاب نمونه می توان از تکنیک های مبتنی بر چگللی مانند :0۳6-56 ‎K-Means clustering‏ و 6۵۲66۵ ۵۱۲6۲ استفاده کرد. ‎query-by- s,5.5, 45, ¢-.|-Query-By-Committee with Expected Error Reduction (QBC-EER) ۷‏ 6 رابا در نظر گرفتن کاهش خطای مورد انتظار برای انتخاب نمونه گسترش می دهد. کاهش مورد انتظار در خطا یا عدم قطعیت را بر اساس پیش‌بینی‌های کمیته تخمین می‌زند. ‏نمونه هایی که انتظار می رود بیشترین سهم را در کاهش خطا یا عدم قطعیت داشته باشند برای برچسب گذاری انتخاب می شوند. ‏اینها برخی از روش های ‎gal,‏ برای یادگیری فعال هستند. انتخاب روش به مسئله خاص, داده های موجود. مدل آموزش داده شده و معیارهای انتخاب مورد علاقه بستگی دارد. مهم است که روش یادگیری فعال را بر اساس ویژگی های مسئله و منابع موجود با دقت انتخاب و انطباق دهید.

صفحه 223:
۳ مفهوم یادگیری مداوم در یادگیری عمیق چیست؟ انسان و حيوان لين توانليى را دارند كه به طور مداوم دلنش و مهارت ها را در طول عمر خود بدست کنند . به لین تونیی ۰ یادگیری مداوم می گویند . یادگیری مداوم توسط مجموعه ای غنی از مکانیسم های عصبی شناختی که با هم به توسعه و تخصص مهارت های حسی و حرکتی و همچنین بازیلبی و تقویت حافظه طولانی مدت است. حاصل می شود . بنابرلين: قابليت يادكيرى مداوم براى سیستم های یادگیری محاسباتی و عوامل مستفل که در دنياى واقعى تعامل دارند و بيوسته جريان اطلاعات را پردازش می کنند . بسیار مهم است ایند ۰ آن را بهبود ببخشند وبه دیگران منتقل یادگیری مداوم 16۵3۲۳۱/9 0۷۱61۲۵۵1 مفهومی برای یادگیری الگوی مداوم در تعداد زیادی از وظلیف به صورت متوالی و بدون فراموش کردن دلنش به دست آمده از وظلیف قبلی است . جلیی که داده های وظلیف قبلی در حین آموزش کارهای جدید دیگر در دسترس نیست . از آنجا که هدف يادكيرى عميق از بين بردن فاصله بين هوش انسان و ماشین است نیاز به عواسلی که خود را با محیط های در حال توسعه پیوسته سازگار کند بیشتر از گذشته در حال افزایش است

صفحه 224:
۳ چگونه می توان به یادگیری مداوم در مدل های یادگیری عمیق دست یافت؟ یادگیری مداوم در مدل های یادگیری عمیق را می توان از طریق تکنیک ها و استراتژی های مختلف به دست آورد. در ینجا برخی از رويكردهاى رليج استفاده می شود: ۱ روش‌های مبتنی بر منظم‌سازی: این روش‌ها: تکنیک‌های منظم‌سازی را برای جلوگیری از فراموشی فاجعه‌بار معرفی می‌کنند. تکنیک هایی مانند تثبیت وزن الاستیک (۴۷/۷6) و هوش سیناپتیک (51) اصطلاحات منظم سازی را به تابع زیان اضافه می کنند که تغییرات در پارامترهای مهم آموخته شده از وظلیف قبلی را جریمه می کند. با محدود کردن به‌روزرسانی‌های پارامتر لین روش‌ها به حقظ دانش از وظلیق قبلی در حین انطیاق با وظلیف جدید کمک می‌کنند. ۲ روش‌های مبتنی بر بازبخش : روش‌های مبتنی بر بازپخش, داده‌های گذشته را در طول آموزش وظلیف جدید ذخیره و پخش می‌کنند. دو نوع اصلی بازبخش وجود دارد: بازيخش مولد و بازپخش نمونه. بازپخش مولد شامل آموزش یک مدل مولد. مانند رمزگذار خودکار متفیر (۷/۵/2) یا شبکه مولد تخاصمی (63/۵/۷)» برای تولید داده‌های مصنوعی شبیه داده‌های قبلی است. از سوی دیگر. بازپخش نمونه زیرمجموعه‌ای از نمونه‌های داده واقعی را از وظايف قبلى شغيره ع ى كن و لز انها برلى [فورش هر نار دانه‌های جدید استاده می کند با بررسی مجدد فده مربوط به وظايف قبلى را در حين يادكيرى وظايف جديد حفظ كند. اى كذشته. مدل می تواند دانش ۳ معماری های پویا: روش های معماری پویا, معماری مدل را براى تطبيق با وظايف جديد و در عین حال حفظ دانش از وظایف قبلی؛ تطبیق می دهند. لين روش ها مى تولند شامل افزلیش ظرفیت مدل با افزودن لایه هايا مازول هاى جديد باشد كه به طور خاص برای کارهای جدید طراحی شده اند. از طرف دیگر, معمارى مدل را مى توان به صورت بويا تطبيق داد و بخش هاى خاصى از شبكه را براى كارهاى مختلف فعال و غيرفعال كرد.

صفحه 225:
۳ دامه..؟ ۴ جداسازی بارامتر: هدف روش هاى جداسازى بارامتر. جداسازى بارامترهاى خاص و مشترك در مدل است. پارامترهای وظیفه خاص به وظایف خاصی اختصاص داده می شوند و پس از یادگیری ثلبت می مانند. در حللى كه بارامترهاى مشترك در بين وظليف به روز مى شوند. اين رويكرد به مدل اجازه می‌دهد تا ضمن به اشتراك كذاشتن دانش مشترك در بين وظايف. دانش مربوط به وظيفه را حفظ كند. معمارىهايى مانند شبكه عصبى بيشرونده (لااللام) و جارجوب (10:ا) /101 6 0 63110 از تكنيكهاى جداسازى يارامترها استفاده م ىكنند. ۵.تقطیر دانش: تقطير دانش شاصل انتقال دانش از مدلى كه قبلاً آموزش ديده(مدل معلم ) به مدل جديدى به نام مدل دانش آموز است. مدل دانش آموز نه تنها بر روی داده های جدید بلکه بر روی پیش بینی ها یا ویژگی های تولید شده توسط مدل معلم نیز آموزش می بیند. این انقال دالش به الگوی دانش آموز کمک می کند تا از دانش آموخته شده الگوی معلم بهره مند شود و بادگیری مداوم را تسهیل می کند. عفرايادكيرى: فرايادكيرى. همجنين به عنوان یادگیری برای یادگیری شناخته می شود. شامل مدل های آموزشی در طیف گسترده ای از وظلیف برای یادگیری نحوه سازگاری سریع با وظایف جدید است. الگوریتم‌های فرا یادگیری یاد می‌گیرند که با کشف الگوهای رایج و استفاده از اين دانش برای تطبیق سریع با وظایف جدید با حداقل داده. وظایف را تعمیم دهند. ايبن رويكردها را مى توان بر اساس الزامات و جالش هاى خاص ستاریوی یادگیری مداوم ترکیب و سفارشی 98 يادكيرى مداوم يك حوزه فعال تحقیقانی است و پیشرفت‌های زیادی ‎ly‏ توسعه تکنیک‌های موثرتر و كارآمدتر براى توانمند ساختن مدلهاى يادكيرى عميق بدون فراموش كردن دانش آموخته‌شده قبلی. به طور مداوم انجام می‌شود.

صفحه 226:
‎AF‏ مفهوم نمونه های متخاصم قابل انتقال را توضیح دهید. ‏نمونه‌های متخاصم قلبل انتقال به نمونه‌های ورودی مخربی اشاره دارد که برای فریب دادن نه تنها یک مدل خاص یادگیری ماشین, بلکه چندین مدل ‎ ‏آموزش‌دیده بر روی مجموعه داده‌های مختلف یا توسط سازمان‌های مختلف, طراعی شده‌اند. لین نمونهها به دقت با هدف بهرمبرداری از آسیب پذیری‌ها ‏یا ضعف‌های مشترک در چندین مدل ساخته شده‌اند و آنها را قابل انتقال می‌کند. ‎ ‏مفهوم نمینه های متخاصم قلبل انتقال از این مشاهدات ناشی می‌شود که اختلالات خاص در داده‌های ورودی می‌تولند منجر به طبقه‌بندی نادرست ‏نشده باشند یا در ‎ ‏پیش‌بینیهای نادرست توسط مدل‌های مختلف شود. حتی اگر آن مدل‌ها هرگزبه طور مستقیم روی نمونههای متخاصم آموزش داد ‏معرض آن قرار نگرفته باشند. به عبارت دیگر, نمونه های متخاصم تولید شده برای یک مدل. اغلب می توانند مدل های دیگر را نیز فریب دهند. نمونه‌های متخاصم قابل انتقال را می‌توان با استفاده از تکنیک‌های مختلف, مانند روش‌های بهینه‌سازی مبتنی بر گرا ‏سریع (۳)۵51۷) یا روش‌های تکراری مانند روش تکراری پلیه (8101) تولید کرد. هدف این روش‌ها یافتن آشفتگی‌هایی در داده‌های ورودی است که ‏خطاى ب ‎ ‏مانند روش نشانه كراديان ‎ ‏بينى مدل را به حداكثر مىرساند يا مرزهاى تصميمكيرى را به كونهاى تغيير مىدهد كه در جندين مدل سازكار باشد.

صفحه 227:
۴ ادامه.... وجود نمونه‌های متخاصم قلبل انتقال. نگرانی‌هایی را در مورد استحکام و قابلیت اطمینان مدل‌های یادگیری ماشین در برنامه‌های کاربردی دنیای واقعی ایجاد می‌کند. این قضیه نشان می‌دهد که مهاجم می‌تولند نمونه‌های متخاصم ایجاد کند که چندین مدل را به طور همزمان فریب می‌دهد. که به طور بالقوه ستجر اه ول محققان و پزشکان فعالانه روی توسعه مکانیزم‌های دقاعی در برابر تمونه‌های متخاصم قابل انتقال کار می‌کنند. برخی از استراتژی‌ها شاسل آموزش جصماه می‌دودده که در لن ملل‌هاه بر ریی داده‌های معمولی و هم بر روی نمونه‌های متحاصم آموزش دادم می‌شوند تا امتسکام حود رابود بخشند. سایر رویکردها بر افزایش قابلیت تفسیر و توضیح مدل‌ها برای شناسایی و کاهش اثرات حملات خصمانه تمرکز دا پرداختن به چالش نمونه‌های متخاصم قابل نتقال برای ایجاد سیستم‌های یادگیری ماشینی امن‌تر و قابل اعتمادتر و اطمینان از استقرار آن‌ها در حوزه‌های حیاتی مانندمرقبت‌های بهداشتی, وسایل نقلیه خودران, و سیستم‌های مالی بسیار مهم است.

صفحه 228:
۵ چگونه می توان نمونه های متخاصم قابل انتقال را تولید کرد؟ تمونه‌های متخاصم قلبل انتقال را مىتوان با استفاده از تکنیک‌های مختلفی که از سیب پذیری‌های مدل‌های یادگیری ماشین استفاده می‌کنند» تولید کرد. در اینجا چند روش متداول استفاده می شود: ‎١‏ روشهاى مبتنى بر كراديان: روشهاى مبتنى بر كراديان. كراديانهاى تلبع زيان مدل رايا توجه به داددهاى ورودى برای ایجاد آشفتگی‌های متخاصم اعمال می‌کنند. روش علامت گرادیان سريع (/۳)351۷) یک روش مبتنی بر گرادیان محبوب است که یک اختلال کوچک به داده های ورودی در جهت علامت گرادیان اضافه می کند. این اختلال برای به حداکثر رساندن خطای پیش‌بینی مدل طراحی شده است. ‏۲ روش‌های تکراری: روش‌های تکراری بر اساس روش‌های مبتنی بر گرادیان با انجام تکرارهای متعدد ‎sly‏ اصلاح آشفتگی‌های مخللف ایجاد می‌شوند. یک مثال. روش تکراری پایه (/510) است که اختلالات کوچک را در چندین تکرار اعمال می کند و در عین حال اطمینان می دهد که داده های آشقته در محدوده مشخصی از ورودی اصلی باقی می مانند. این فرآیند تکراری,اثربخشی و قابلیت انتقال نمونه‌های متخاصم ایجاد شده را افزایش می‌دهد. ‏۳روش‌های مبتنی بر بهینه‌سازی: هدف روش‌های مبتنی بر بهینه‌سازی یافتن اختلال بهینه است که خطای پیش‌بینی مدل را به حداکثرمی‌رساند و در عين حال محدودیت‌های خاصی را برآورده می‌کند. یک رویکرد. حمله 260۷۷ (حمله کارلیتی و واگتر) است که تولید نمونه های متخاصم رابه عنوان یک مسئله بهينه سازى فرموله مى كند. به دنبال اختلالی می‌گردد که فاصله بین ورودی اصلی و ورودی آشفته را به حداقل می‌رساند و در عین حال خطای پیش‌بینی مدل را به حداکتر می‌رساند. ‎

صفحه 229:
۵ ادامه..؟ ۴حملات جعبه سیاه: حملات جعبه سياه مدل هايى را هدف قرار می دهد که مهاجم برای آنها دسترسی محدودی به پارامترها یا گرادیان های مدل داشته یا ندارد. یکی از رویکردهای رلیج استفاده از قابليت انتقال براى توليد نمونه هاى متخاصم بر روى يك مدل جایگزین است که براى تقليد از رفتار, ‎jot‏ عن كد لت ‎ ‏مدل هدف نمونه هاى متخاصم توليد شده مى توانند براى حمله به مدل هدف با نرخ موفقيت بالا مورد استفاده قرار كيرند. ‎ ‏۵ روش‌های جمعی: روش‌های جمعی شامل ترکیب پیش‌بینی‌های چند مدل براى توليد نموندهاى متخاصم است. يا در نظر كرفتن تصميمات جند مدل, هدف روش‌های جمعی» سوه استفاده از اسیب‌پذیری‌هایی است که در مدل‌های مختلف مشترک هستند. تمونه‌های متخاصم که با استفاده از روش‌های جمعی تولید می‌شوند.قابلیت انتقال بالاترى را نشان می‌دهند. ‏توجه به لين نكته مهم است كه توليد نمینه های متخاصم قلبل انتقال می تولند يك كار جللش برانكيز باشد. زيرا نيازبه بهيته سازى دقيق و درك نقاط ضعف مدل های هدف دارد. علاوه بر لين: اثربخشی و قابلیت انتقال نمونههاى متخاضم توليد شده مىتولند بستهنبه عواملى مانند معماری مدل: مجموعه داده‌های آموزشی و استراتی‌های حمله استفاده‌شده. متفاوت باشد. ‎ ‏تولید نمونه‌های متخاصم قلبل انتقال, یک حوزه تحقیقلتی فعال است و تلاش‌های مستمر بر توسعه تکنیک‌های پیشرفتهتر و کارآمدتر برای درک و دفاع در برایر این حملات متمرکز است و از استحکام و قابلیت اطمینان مدل‌های یادگیری ماشین در سناریوهای دنیای واقعی اطمینان می‌دهد.

صفحه 230:
۶ مفهوم یادگیری صفر شات در یادگیری عمیق چیست؟ یادگیری صفر شات یک پارادليم در یادگیری عمیق است که هدف ن لین است که مدل‌ها را قادر به تشخیص و طبقه‌بندی اشیا یا مفاهیمی کند که هرگز مستقیماً برای آنها آموزش ندیده یا در طول آموزش دیده نشده‌اند. در یادگیری نظارت شده سنتی» مدل‌ها بر روی داده‌های برچسب گذاری شده از مجموعه‌ای از کلاس‌های از پیش تعریف‌شده آموزش می‌بینند و فقط می‌توانند نمونه‌های متعلق یه تن کلاس‌ها را طبقه‌بندی کنند. با این حال» در یادگیری صفر شات. هدف گسترش قابلیت‌های مدل برای شناسایی و طبقه‌بندی کلاس‌های جدید است که بخشی از داده‌های آموزشی نبوده‌ند مفهوم یادگیری صفر شات مبتنی بر لین ایده است که مدل ها می توانند تعمیم و درک رولبط بین کلاس ها یا مفاهیم مختلف را یاد بگيرند. از اطلاعات کمکی مانند ویژگی‌های کلاس یا جاسازی‌های معتایی برای پر کردن شکاف بین کلاس‌های دیده شده و نادیده استفاده می‌کند. در یادگیری صفر شات. مدل‌ها معمولاً با استفاده از ترکیبی از داده‌های برچسب گذاری‌شده از کلاس‌های دیده شده و اطلاعات اضافی درباره رولبط بین کلاس‌هاء مانند بردارهای کلمه معنایی یا ویژگی‌هایی که هر کلاس را توصیف می‌کنند. آموزش داده می‌شوند. این اطلاعات کمکی به مدل کمک می کند تا نكاشت بين ویژگی های بصری داده ها و نمایش های معنایی کلاس ها را بیاموزد.

صفحه 231:
۶ ادامه..؟ در طول استنتاج. مدل‌های یادگیری صفر شات می‌توانشد نمونه‌هایی از کلاس‌های جدید را با اعمال نفوذ روایط آموخته‌شده پین ویژگی‌های بصری و معنایی, شناسایی و طبقه‌بندی کنند. با استفاده از جاسازی‌های معنایی یا ویژگی‌های مرتبط با کلاس‌های دیده نشده, مدل می‌تواند درک خود را از ویژگی‌های بصری تعمیم دهد تا حتی برای کلاس‌هایی که قبلاً با آن‌ها مواجه نشده بود. پیش‌بینی کند. یادگیری صفر شات کاربردهای عملی در سناریوهایی دارد که در آنن به دست آوردن داده های برچسب دار برای همه کلاس های ممکن دشوار یا پرهزینه است. مدل‌ها را قدر می‌سازد نا نون‌های کلاس‌های جدید را بدون نیز به آموزش مجدد بر روی مقادیر زیادی از داددهاى برجس ب كذارى شده تطبیق و طبقه‌یندی کنند. تکنیک ها و رویکردهای مختلفی برای یادگیری صفر شات توسعه داده شده است. از جمله روش های مبتنی بر جاسازی؛ روش های مبتنی بر ویژگی و مدل های تولیدی. هدف این تکنیک‌ها بهبود توانلیی مدل برای تعمیم و انتقال دلنش از کلاس‌های دیده شده به کلاس‌های دیده نشده. گسترش دامنه قابلیت‌های طبقه‌بندی آن

صفحه 232:
۷ چگونه می توان آموزش صفر شات را انجام داد؟ یادگیری صفر شات را می توان با استفاده از تکنیک ها و رویکردهای مختلف انجام داد. در اینجا چند روش رایج مورد استفاده در یادگیری صفر شات آورده شده است: ا. روش‌های میتنی بر ویژگی: این رویکرد بر ویژگی‌ها متکی است که توصیف‌های معنایی یا ویژگی‌های مرتبط با هر کلاس هستند. ویژگی ها می توانند مقادیربیتری (حضور یا عدم حضور) یا پیوسته (کمی) باشند. در طول آموزش, مدل یک نقشه برداری بین ویژگی های بصری داده ها و نملیش ویژگی ها را می آموزد. در زمان استنتاج. مدل می‌تولند نمونه‌هلیی از کلاس‌های جدید رابا مقایسه ویژگی‌های بصری آن‌ها با ویژگی‌های مشخصه شناخته‌شده؛ طبقه‌بندی کند. ۲ روش‌های جاسازی معتلیی: در لین رویکرد. هر کلاس با یک جاسازی معنایی» معمولاً به شکل یک بردار در یک فضای معتلیی با ابمادبالا نشان داده می‌شود. این جاسازی هاء روابط معنایی بین طبقات را نشان می‌دهند. در طول آموزش. مدل یاد می‌گیرد که ویژگی‌های بصری را با جاسازی های معنایی ترسیم کند. در زمان استنتاج, مدل می‌تواند نمونه‌هایی از کلاس‌های جدید را با مقایسه ویژگی‌های بصری آن‌ها با جاسازی های معنابی کلاس‌های شناخته‌شده طبقه‌بندی کند.

صفحه 233:
۷ ادامه..؟ ۳ مدل‌های مولد: مدل‌های مولد. مانند شبکه‌های مولد تخاصمی (/3/0)) یا رمزگذارهای خودکار متفیر (۷/۵]25). می‌توانند برای یادگیری صفر شات استفاده شوند. لين مدل ها ياد مى كيرند كه نمونه هاى جدید را بر اساس توزیع کلاس های شناخته شده تولید کنند. در طول استنتاج. مدل می تولند نمونه هایی از کلاس های جدید تولید کند و آنه را بر اساس شباهت آنها به نمونه های تولید شده طبقه بندی کند. ۴ روش های مبتنی بر گراف دانش: این رویکرد کلاس ها و روابط آنها را به عنوان یک گراف دانش نشان می دهد. گراف شامل گره‌هایی است که کلاس‌ها را نشان می‌دهند و یال‌هایی که روابط بین کلاس‌ها را نشان می‌دهندلبه عنوان مثال. رولبط 51106۲61855-511061355 یا شباهت‌های معنایی). مدل یاد می گیرد که بر اساس اطلاعات موجود در گراف دانش استدلال کند و پیش بینی کند. ۵. روش‌های ترکیبی: روش‌های ترکیبی چندین منبع اطلاعات مانند ویژگی‌ها. جاسازی‌های معنایی و داده‌های کمکی را ترکیب می‌کنند تا عملکرد یادگیری صفر شات را افزایش دهند. ین روش‌ها از نقاط قوت مکمل رویکردهای مختلف. برای بهبود توانایی مدل در تشخیص و طبقه‌بندی کلاس‌های جدید استفاده می‌کنند. توجه به لین نکته مهم است که یاد ی صفر شات یک حوزه تحقیقاتی فعال است و تکنیک‌ها و رویکردهای جدید به طور مداوم برای بهبود عملکرد مدل‌های یادگیری صفر شات در حال توسعه هستند. انتخاب روش به مجموعه داده های خاص, اطلاعات موجود و عملکرد مطلوب در وظایف طبقه بدی هفر شلت بستگی دارد

صفحه 234:
۸ مفهوم شبکه های کانولوشن گراف د[63) را توضیح دهید. شبکه های کانولوشن گراف (ل|3)7)) نوعی شبکه عصبی هستند که برای پردازش داده های ساختار یافته به صورت گراف طراحی شده اند. گراف ها ساختارهای ریاضی هستند که از گره هلیی تشکیل شده لند که توسط یال هابه هم متصل شده لند. جلیی که هر گره نشان دهنده یک موجودیت و هر یال نشان دهنده یک رابطه یا ارتباط بین موجودیت ها است. هدف (32) ها درک و استفاده از اطلاعات ساختاری موجود در گراف ها برای انجام وظایفی مانند طبقه بندی گره هاء پیش بینی پیوندها و طبقه بندی در سطح گراف است. مفهوم 6 ها از شبکه های عضبى كانواوشن (ل الا ©) مورد استفاده در بردازش تصوبر الهم گرفته شده است. در لها لابههای کنولوشن فیلترهیی رابهنواحی محلی میک تصویر ورودی اعمال می‌کنند تا ویژگی‌ها را استخراج کنند و رویط فضلیی را د عملیات کانولوشنی بر روی گره‌ها در یک گراف انجام می‌شود تا اطلاعات همسایگان محلی آن‌ها را جمع‌آوری کند و وابستگی‌های رابطه‌ای را درک کند. رک کنند. به طور مشلبه. در لام تهاء ایده اصلی پشت !362) هاء تعریف عملیات کانولوشنی روی گراف ها با انتشار اطلاعات از گره های همسایه برای به روز رسانی نملیش گره های هدف است. این اسر از طریق یک طرح ارسال پیام به دست می آيده که در آن هر گره اطلاعات را از گره های همسایه خود جمع می کند يك تبديل به اطلاعات جمع شده اعمال می کند و ویژگی خود را به روز می کند. اين فرآيند در جندين لايه تکرار می شود تا اطلاعات همسایگیهای بزرگتر را به دست آورد: ور

صفحه 235:
‎VA‏ ادامه.... اجزای کلیدی یک 660 عبارتند از ‎١‏ ساختار كرافه ساختار كراف با كره ها و يال ها تعريف مى شود كه به ترتيب موجوديت ها و روابط أنها را نشان مى دهند. مى توان لن را به عنوان يك ماتريس مجاورت يا يك ليست لبه نشان داد. ‏ویژگی های گره: هر گره در گراف با یک بردار ویژگی مرتبط است که نشان دهنده ویژگی ها یا خصایص لن است. اين ويزكى ها به عنوان ورودئ ‎GON‏ ‏1 ‎cle ay‏ کانولوشنال: ا[3)2) ها معمولاً از چندین لایه تشکیل شده لند که در ن هر لایه عملیات ارسال پیام و تجمیع را انجام مى دهد. لين لایه ها ویژگی گره ها را بر اساس اطلاعات گره های مجاور خود به روز می کنند. ‏۴ تابع تجمیع:تابع تجمیع نحوه جمع آوری اطلاعات از گره های همسایه را مشخص می کند. توابع متداول تجمیع عبارتند از جمع. میانگین یا حداکثر. ۵تایع فعال سازی: یک تابع فعال سازی پس از مرحله تجميع براى معرفى غيرخطى و درك روابط بيجيده بين كره ها اعمال مى شود. ‏با اعمال مکرر عملیات ارسال پیام و تجمیع. ‎co Le GON‏ توانند وابستگی های مرتبه بالاتر را دریافت کنند و ویزگی گره های آموزنده ای را که ساختار و اتصال گراف را در نظر مى كيرة ‏ها نتايج لميدواركتهملىرا در 5 ترس ید و لبق عور لم لقتنا امناتة ۱ وییه بواییردازش‌دادد هایی‌مفید هستند که می‌تولنند بر طبيعيبسه ‎Rone ees rears‏ ‎ ‎

صفحه 236:
‎٩‏ برخی از کاربردهای شبکه های کانولوشن گراف را نام ببرید. ‏شبکه‌های کانولوشن گراف (3)/۷)) کاربردهایی در حوزه‌های مختلف پیدا کرده‌اند که در آن داده‌ها به صورت گراف هاء ساختار یافته‌اند. برخی از ‏کاربردهای محیوب ل3)2) ها عبارنتد از ‏طبقه بندی گره ها در یک گراف بر اساس ویژگی های آنها و ساختار گراف استفاده کرد به عنوان ‎ ‎ls GON Ae oS cay ad.)‏ را مى توان برا مثال, در تجزیه و تحلیل شبکه های اجتماعی. ‎oe lo GCN‏ توانند کاربران را بر اساس ارتباطات اجتماعی و اطلاعات پروفایل آنها طبقه بندی کنند. ‏۲ پیش‌بینی پیوند: لا[32)ها می‌توانند پیوندهای گمشده یا آینده بین گره‌ها را در یک گراف پیش‌بینی کنند. این کار در سیستم های توصیه مفید ‏اميت جاى كه 6600 ها مى توانند ارتباطات بين کاربران و موارد را بای امجاه توصیه های شخصی پیش بینی کنند. ‏۳ طبقه بندی گراف : لآ/)3) ها می توانند کل گراف ها را بر اساس ویژگی های ساختاری و ویژگی های گره طبقه بندی کنند. لین عمل در کارهلیی مانند طبقه‌بندی مولکول‌ها در شیمی یا طبقه‌یندی اسناد در پردازش زبان طبیعی. که در آن گراف ساختار شیمیلیی یا وابستگی سند را نشان می‌دهد. كاربرد دارد. ‏؟.توليد كراف: 001 ها مى توانند ساختارهاى كراف جديدى توليد كنند كه مشلبه كراف ورودى هستند. لين عمل در كارهليى مانند توليد مولكول يا ‏افزايش داده های گراف مفید است.

صفحه 237:
‎٩‏ ادامه...؟ ‏۵. تشخیص جامعه: لاآ/3) ها می توانند جوامع یا خوشه هایی از گره ها را در یک گراف بر اساس الگوهای اتصال آنها شناسایی کنند. این کار و تحلیل شبکه های اجتماعی و درک سازماندهی شبکه های پیچیده ارزشمند است. ‎ ‏۶ تکمیل گراف دانش: لاآ/)3) ها می توانند رولبط گمشده یا ناقص را در گراف های دلنش استنباط کنند. با استفاده از ساختار و ویژگی های موجودیت ‏های بوعود 6 هامی توت روط جدید ی موجودت هارا پیش بتی ‎Se‏ ‎ ‏۷ سیستم های توصیه: از ا32) ها می توان برای بهبود سیستم های توصیه با درک روابط پیچیده بین کاربران, آیتم ها و تعاملات آنها در یک نمایش ‏مبتنی بر گراف استفاده کرد. ‏اینها تنها چند نمونه هستند و ل32) ها را می توان در حوزه ها و کارهای مختلف دیگری که در آن داده ها به طور طبیعی به عنوان گراف نمایش داده می شوند. اعمال کرد. ثابت شده است که /302) ها در درک و به کارگیری اطلاعات رابطه ای موجود در گراف ها موثر هستند که منجر به بهبود ‏عملکرد در وظایف یادگیری مبتنی بر گراف می شود

صفحه 238:
۰ مفهوم گراف های دانش در بادگیری عمیق چیست؟ گراف های دانش, نمایش‌های ساختاری دانش هستند که رولبط و ارتباطات بین موجودیت‌ها را نشان می‌دهتد. لین گراف ها راهی را برای سازماندهی و ذخیره اطلاعات در قالبی مبتنی بر گراف ارلئه می دهند. جلیی که گره ها نشان دهنده موجودیت ها و یال ها نشان دهنده رولبط یا ویژگی های بین آَن موجودیت ها هستند. گراف های دانش برای مدل‌سازی دانش دنیای واقعی طراحی شده‌اند و ماشین‌ها را قادر می‌سازند تا استدلال کنند و اطلاعات جدید را استنتاج کنند. در زمينه يادكيرى عميق. كراف هاى دانش به عنوان یک منبع ارزشمند برای وطلیف مختلف. از جمله درک زبان طبیعی, پاسخ به سوال. سیستم های توصیه و جستجوی معنابی, عمل می کنند. این گراف ها بک نمایش ساختاريافته و به هم پیوسته از دانش را ارائه می‌کنند و به مدل‌های یادگیری عميق اجاره مى دهند نا ار روايط بين موجوديسها براى افزايش عملکرد خود ال تقا, کند. كراف هاى دلنش معمولاً .با تركيب داددها از منلبع مختلف. مانند بايكادهاى داده ساختاريافته. متن بدون ساختار و هستى شناسى ساخته مىشوند. آنها می توانئد به صورت دستى توسط متخصصان دامنه ايجاد شوند يا به طور خودكار با استفاده از تكنيك هايى مانند استخراج اطلاعات: بيوند نهادها و تجزيه معنايى توليد شوند. كراف دانش به دست آمده نشان دهنده يك شبكه غنى از موجوديت ها و روابط به هم بيوسته است. مدلهاى يادكيرى عميق می‌توانند از گراف های دانش به روش‌های مختلفی استفاده کنند: ۱.جاسازی‌های موجودیت: گراف های دانش را می‌توان برای ایجاد جاسازی‌های موجودیت. که نمایش‌های برداری با ابعاد پایین موجودیت‌ها هستند. استفاده کرد. لین جاسازی ها منظور معنایی و روابط موجودات در گراف دانش را به تصویر می‌کشند. جاسازی های موجودیت را می‌توان با استفاده از تکنیک‌هایی مانند شبکه‌های کانولوشن گراف (30۱۷)) یا الگوریتم‌های جاسازی ماند 01511/011 1۳۵۳5۶۰ یا 20۲۵1۴ یاد گر

صفحه 239:
۰ ادامه..؟ ۲. پیش‌بینی رابطه: گراف های دائش به مدل‌های یادگیری عمیق اجازه می‌دهند تا رولبط گمشده یا مشاهده نشده بین موجودیت‌ها را پیش‌بیتی کنند. با تجزیه و تحليل رولبط موجود در كراف دلنش. مدل ها مى توانند رولبط جديد را استنباط و پیش بینی کنند. لین عمل در کارهلییمانندتکمیل گراف حانش يا بيشبينى بيولد ارزشمنة أستد ۳ استدلال معنایی: مدل‌های یادگیری عميق مىتوانند از ماهيت ساختار يافته كراف هاى دلنش براى اجراى استدلال و استنتاج اطلاعات جديد استفاده كنند با بيمليش كراف و تجزيه و تحلیل رولبط بین موجودیت هاء مدل ها می توانند استتتاج های عنطقی داشته باشند ویر اسلس دلتش موجود به سوالات پیچیده پاسخ دهند. fe aby oe ‏رای وان مر ا فنه برد با‎ ue Oe ares cu ey 1 ‏كاربران: آيتمها و ويذكىهاى آنهاء مدلها مى توانند بر اساس ترجيحات كاربر و ارتباطات بين‎ توصيههاى شخصى سازى ارائه كنند. ۵جستجوی معنلیی: كراف هاى دانش جستجوى معتليى را فعال مىكنند. جليى كه يرس و جوهاى جستجو را مىتوان بر اساس رولبط بین موجودب درك و بردازش كرد. با استفاده از ساختار كراف. مدلها مىتوانئد نتايج جستجوى دقيق ترى ارائه دهند. به طور كلى. گراف های دانش نمایشی ساختاريافته از دانش را ارائه می‌کنند که به مدلهاى يادكيرى عميق اجازه مىدهد نا استدلال. استنتاج و بيشيينىهاى آكاهانهترى انجام دهند. آنها درك و استفاده از اطلاعات را در برنامه های مختلف با به دست آوردن رولبط غنی بين موجوديت ها و امكان تصميم كيرى آكاهانه تر و هوشمندانه تر از اطلاعات را افزايش مى دهند.

صفحه 240:

جهت مطالعه ادامه متن، فایل را دریافت نمایید.
59,000 تومان