مراقبت‌های بهداشتیپزشکی و سلامت

شبکه های عصبی مصنوعی

فایل دانلودی حاوی یک فایل پاورپوینتی قابل ویرایش در 86 اسلاید به صورت متنی همراه با عکس میباشد. از جمله مطالب فایل دانلودی: مقدمه شبکه عصبی چیست؟ شبکه عصبی چه قابلیتهائی دارد؟ مسائل مناسب برای یادگیری شبکه های عصبی الهام از طبیعت Perceptron توانائی پرسپترون توابعی که پرسپترون قادر به یادگیری آنها میباشد توابع بولی و پرسپترون اضافه کردن بایاس آموزش پرسپترون قانون پرسپترون الگوریتم gradient descent بدست آوردن قانون gradient descent محاسبه گرادیان خلاصه یادگیری قانون دلتا مشکلات روش gradient descent تقریب افزایشی gradient descent مقایسه آموزش یکجا و افزایشی شبکه های چند لایه یک سلول واحد تابع سیگموئید الگوریتم Back propagation الگوریتم Back propagation الگوریتم BP شرط خاتمه مرور الگوریتم BP افزودن ممنتم قدرت نمایش توابع فضای فرضیه و بایاس استقرا قدرت نمایش لایه پنهان قدرت نمایش لایه پنهان قدرت تعمیم و overfitting دلایل رخ دادن overfitting مثال: تشخیص ارقام روشی که وزنها یاد گرفته میشوند شبکه چه چیزی را یاد میگیرد؟ مثالی از تنوع ارقام دستنویس انواع اتصالات شبکه انواع مختلف یادگیری اعمال Backpropagation به تشخیص اشیا

ppt.ir

صفحه 1:

صفحه 2:
کانل اکیلمی انکهاور ‎PptBank‏ Instructor : Saeed Shiry

صفحه 3:
0 معدمه © شبکه عصبی مصنوعی روشی عملی برای یادگیری توابع گوناگون نظیر توابع با مقادیر حقیقی توابع با مقادیر گسسته و توابع با مقادیر برداری میباشد. ‎٩‏ یادگیری شبکه عصبی در برابر خطاهای داده های آم مصون بوده و اینگونه شبکه ها با موفقیت به مسائلی ند شناسائی گفتار. شناسائی و تعبیر تصاویر» و یادگیری رژبات اعمال شده است .

صفحه 4:
روشی برای محاسبه است که بر پایه اتصال به هم پیوسته چندین واحد پردازشی ساخته میشود. شبکه از تعداد دلخواهی سلول یا گره یا واحد یا نرون تشکیل میشود که مجموعه ورودی را به خروجی ربط میدهند. wy ۲ iddes bayer

صفحه 5:
شبکه عصبی چه قابلیتهانی دارد؟ محاسبه یک تابع معلوم تقریب یک تابع ناشناخته شناسانی الگو پردازش سیکنال یادگیری

صفحه 6:
PptBank ‏نک‎ je tea ‏مسائل مناسب برای یا دگیر ى‎ wnat © خطا در داده های آموزشی وجود داشته باشد. © مثل مسائلی که داده های آموزشی دارای نویز حاصل از دادهای سنسورها نظیر دوربین و میکروفن ها هستند. © مواردی که نمونه ها توسط مقادیر زیادی زوج ویژگی-مقدار نشان داده شده باشند. نظیر داده های حاصل از یک دوربین ویدئونی. * تابع هدف دارای مقادیر پیوسته باشد. © زمان کافی برای یادگیری وجود داشته باشد. اين روش در مقايسه ب روشهای دیگر نظیر درخت تصمیم نیاز به زمان بیشتری برای یادگیر) دارد. ۶ نیازی به تعبیر تابع هدف نباشد. زیرا به سختی میتوان وزنهای یادگرة شده توسط شبکه را تعبیر نمود.

صفحه 7:
الهام از طبیعت 1 مطالعه شبکه های عصبی مصنوعی تا حد زیادی ملهم از سیستم ‎cle‏ پادگیر طبیعی است که در آنها یک مجموعه پیچیده از نرونهای به هم متصل در کار یادگیری دخیل هستند. ‎fl‏ گمان میرود که مغز انسان از تعداد 00 نرون تشکیل شده باشد که هر نرون با تقریبا 008 نرون دیگر در ارتباط است. ‏1 سرعت سوئیچنگ نرونها در حدود 9000 ثانیه است که در مقایسه با کامپیوترها ‎UD‏ :۹0 ) ثانیه ( بسیار ناچیز مینماید. با این وجود آدمی قادر است در ).0) ثانیه تصویر یک انسان را بازشناسانی نماید. این قدرت فوق العاده باید از پردازش موازی توزیع شده در تعدادی زیادی از نرونها حاصل شده باشد. ‎

صفحه 8:
@ervepivcda ۴ نوعی از شبکه عصبی برمبنای یک واحد محاسباتی به نام پرسپترون ساخته میشود. یک پرسپترون برداری از ورودیهای با مقادیر حقیقی را گرفته و یک ترکیب خطی از این ورودیها را محاسبه میکند. اگر حاصل از یک مقدار آستانه بیشتر بود خروجی پرسپترون برابر با ۸ و در غير اینصورت معادل -) خواهد بود. {1 or -1}

صفحه 9:
بوينت یادگیری یک پرسپترون ‎٩‏ خروحی پرسپترون توسط رابطه زیر مشخص میشود: ‎wnxn > 0‏ + ... + 72:2 + ۷1:1 + ۷0 ]1 1 ‎O(x1,x2,...,.xn)-F otherwise‏ * که برای سادگی آنرا میتوان بصورت زير نشان داد: / ‎O(X) = So) where‏ ‎lify>0‏ ‎as‏ ‎Sgn{y) = +1 otherwise‏ یادگیری پرسپترون عبارت است از: پیدا کردن مقادیردرستی برای () ‏بنابراین فضای فرضیه را" در یادگیری پرسپترون عبارت است ازمجموعه تمام مقادیر حقیقی, ممکن برای بردارهای وزن. ‎ ‎ ‎

صفحه 10:
توانائی پرسپترون ۴ پریسترون را میتوان بصورت یک سطح تصمیم عممامسومو| در فضاى © بعدی نمونه ها در نظر گرفت. پرسپترون برای نمونه های یک طرف صفحه مقدار ) و برای مقادیر طرف دیگر مقدار -) بوجود میاورد. Decision boundary (WX = 0)

صفحه 11:
ميباث ۳ كاد ‎PptB a‏ توابعی که پرسپترون قادر به یادجی وش ‎ia‏ 3 اشد Pe cay yh ‏یک پرسپترون فقط قادر است‎ ٩ ‏جداپذیر باشند. اینگونه مثالها مواردی هستند که بطور کامل توسط یک‎ ‏عممامسمرولقابل جدا سازی میباشند.‎ early separable Non-linearly separable

صفحه 12:
توابع بولی و پرسپترون ‎NOR‏ ,۱۱۸۱۱3 ,0۴8 ,۵۱۱0 یک پرسپترون میتواند بسیاری از توابع بولی را نمایش دهد نظیر .را نمايش دهد 01 اما نميتوائد . 1 ‎ ‎

صفحه 13:
اضافه کردن بایاس افزودن بایاس موجب میشود تا استفاده از شبکه 9 .پرسپترون با سهولت بیشتری انجام شود گیری بایاس نیازی به استفاده از باشیم بایاس را بصورت یک را ۷10 ورودی با مقدار ثابت 4 در نظر گرفته و وزن يه آن لختصاص میدهیم J=W+ S XW jel

صفحه 14:
آموزش پرسپترون چگونه وزنهای یک پرسپترون واحد را یاد بگیریم به نحوی که پرسپترون برای مثالهای آموزشی مقادیر صحیح را ایجاد دو راه مختلف : 0 ككون برسبترمن ‎toss 0‏

صفحه 15:
آموزش پرسپترون الگوریتم یادگیری پرسپترون 2.0 مقادیری تصادفی به وزنها نسبت میدهیم 6 پرسپترون را به تک تک مثالهای آموزشی اعمال میکنیم.اگر مثال غلط ارزیابی شود مقادیر وزنهای پرسپترون را تصحیح میکنیم. ...یا تمامی مثالهای آموزشی درست ارزیابی میشوند: 17 بله 1 بايان الكوريتم 17 خیراابه مرحله ۵ برمیگردیم

صفحه 16:
قانون پرسپترون در هر مرحله وزنها بر (0 ,... ,2 ,21) < 6ربرای یک مثال آموزشی . 1 :اساس قانون پرسپتون بصورت ز؛ + Awi ‏كه در أن‎ )۲-۵( ۵ output ut generated by the perceptron tant called the learning rate (e.g., 0.1) ‎Chal 2d SS‏ که برای یک مجموعه مثال جدایذیرخطی ابن روش همگرا شده و پرسپترون قادر به جدا سازی صحیح مثالها خواهد شد.

صفحه 17:
قانون دلتا ۲6۷۱6 ‎Delta‏ وقتی که مثالها بصورت خطی جداپذیر نباشند قانون پرسپترون همگرا نخواهد شد. برای غلبه بر اين مشکل از قانون دلتا استفاده میشود. 0 ایده اصلی این قانون استفاده از 0656601 9۲20/1601 برای جستجو در فضای فرضيه وزنهاى ممكن ميباشد. اين قانون ‎y Back propagation 3 4b‏ است که برای آموزش شبکه با چندین نرون به هم متصل بکار میرود. ‎é‏ 1 همچنین این روش پایه ای برای انواع الگوریتمهای یادگیری است که باید فضای فرضیه ای شامل فرضیه های مختلف پیوسته را جستجو کنند.

صفحه 18:
‎Rule‏ ۱26۱2 قانون دلتا ‏برای درک بهتر این روش آنرا به یک پرسپترون فاقد حد آستانه اعمال میکنیم. در انجا لازم است ابتدا تعریفی برای خطا ی آموزش ارانه شود. یک تعریف متداول ‏این چنین است: ‎E=% 5, (t,-0)2‏ ‎ ‏كه اين مجموع برای تمام مثالهای آموزشی انجام میشود. ‎

صفحه 19:
کاند [لگرلمیپ نکپ اور ‎١‏ وت الگوریتم ‎gradient descent‏ | با توجه به نحوه تعریف ع] سطح خطا بصورت یک سهمی خواهد بود. ما بدنبال وزنهائى هستيم كه حداقل خطا را داشته باشند . الكوريتم 06566۳1 9۲۵01601 در فضای وزنها بدنبال برداری میگردد که خطا را حداقل کند. اين الگوریتم از یک مقدار دلخواه برای بردار وزن شروع کرده و در هر مرحله وزنها را طوری تغییر میدهد که در جهت شیب کاهشی منحنی فوق خطا ‎E(W)‏ ‏کاهش داده شود. wl

صفحه 20:
بدست آوردن قانون 0۲۵016۳1 ‎descent‏ ‎fl‏ ایده اصلی: گرادیان همواره در جهت افز ‏1 گرادیان ع نسبت به بردار وزن ۷۷ بصورت زیر تعریف میشود: ‎ ‏۴/۷۳ ,۰.۰ ,۴/۷1 ,۴/۵ ] < (۷۷) ۴ 0 که‌در آن (۷۷) ] یک بردارو ‏ ع مشتق جزئی نسبت به هر وزن ميباشد. ‎

صفحه 21:
Delta Rule ‏قانون دلتا‎ آا برای یک مثال آموزشی(۳ 2 ,1) < 2 در هر مرحله وزنها بر اساس قانون دلتا بصورت زير تغییر میکند: wi = wi + Awi Where Awi = -n E'(W)/wi ‎learning rate (e.g., 0.1)‏ :1 علامت منفی نشاندهنده حرکت در جهت کاهش شیب است. ‎

صفحه 22:
محاسبه گرادیان 1 با مشتق گیری جزئی از رابطه خطا میتوان بسادگی گرادیان را محاسبه نمود: ‎E'(W)/ w, = 2, (t= O)) (-x)‏ | لذا وزنها طبق رابطه زیر تغییر خواهند نمود. Awi = 1 Zi (ti - oi) xi

صفحه 23:
خلاصه یادگیری قانون دلتا الگوریتم یادگیری با استفاده از قانون دلتا بصورت زیر میباشد. 2.0 به وزنها مقدار تصادفی نسبت دهید ©. 2 تارسیدن به شرایط توقف مراحل زیر را ادامه دهید 1غ هر وژن لا رادار صفر عدددهی اولیه كنيد 1 برای هر مثال: وزن ,لا را بصورت زپر تغیر دهید: ‎w, = w,+n(t-o)x,‏ :را بصورت زير تغيير دهيد ,» مقدار 1 ‎ow‏ را تا خطا بسیار کوچک شود ۲

صفحه 24:
مشکلات روش ]01656610 0۲۵016۲ 2.6 ممکن است همگرا شدن به یک مقدار ©. اگر در سطح خطا چندین مینیمم محلی وجود داشته باشد تضمینی وجود ندارد كه الكوريتم مينيمم مطلق را بيدا بكند. زمان زيادى لازم داشته باشد. در ضمن ابن روش وقتى قابل استفاده است كه: 1 فضاى فرضيه داراى فرضيه هاى بارامتريك بيوسته باشد. 0 رابطه خطا قابل مشتق كيرى باشد.

صفحه 25:
بير وزنها پس از مشاهده همه مثالهاه آنها را بازا هر مثال مشاهده داد. در این حالت وزنها بصورت افزایشی ۳6۲۵۳6۳۲۵۱ میکنند. این روش را ‎stochastic gradient descent‏ نیزمیناه Ww, = n (t-o) x, يتواند از بروز مینیمم محلی جلوگیری کند. نتری دارد درعوض میتواند طول 5060 در بعضی موارد تغییر افزایشی وزنها روش استاندارد نياز ب بزرگتری هم داشته باشد.

صفحه 26:
کاند لکیام انکهاور ‎PptBank‏ مقایسه آموزش یکجا و افزایشی * آموزش افزایشی (60۷۳ * آموزش یکجا (مسسا ‎(@etck‏ | مسا

صفحه 27:
بر خلاف پ,سپترونها شبکه های چند لایه میتوانند برای یادگیری مسائل غیر خطی و همچنین مسائلی با تصمیم گیری های متعدد بکار روند.

صفحه 28:

صفحه 29:
بيت یک سلول واحد برای اینکه بتوانیم فضای تصمیم گیری را بصورت غیر خطی از هم جدا بکنیم. لازم است تا هر سلول واحد را بصورت یک تابع غیر خطی تعریف نمائیم. مثالی از چنین سلولی میتواند یک واحد سیگموئید باشد: 0 O=o(net)=1/1+e7

صفحه 30:
تابع سیگمونید خروجی این سلول واحد را بصورت زیر میتوان بیان نمود: ‎O(x1,x2,...,xn) & ( WX )‏ لاج + 1 / 1 ع ( ۷۷ )07 :136۲6 oly) /dy =o(y) (1 - ofy))

صفحه 31:
seal gots ’ Back propagation ‏الگوریتم‎ برای یادگیری وزن های یک شبکه چند لایه از روش ‎Back Propagation‏ استفاده میشود. در این روش با استفاده از 46566۳6 9۲20160 سعی میشود تا مربع خطای بین خروجی های شبکه و تابع هدف مینیمم شود. خطا بصورت زیر تعریف میشود: [ه معا < << ۱۷ 2 cedicoutputs مراد از ویس خروجیهای مجموعه واحد های لایه خروجی و ,او بت مقدا هدف و خروجی متناظر با > امین واحد خروجی و مثال آموزشی 4 است.

صفحه 32:
کاند لکیام انکهاور ‎PptBank‏ الگوریتم 0۳00۵9۵110۳ 83601 1 فضای فرضیه مورد جستجو در اين روش عبارت است از فضای بزرگی که توسط همه مقادیر ممکن برای وزنها تعریف ميشود. روش 06566۳6 9۲۵0160۲ سعی میکند تا با مینیمم كردن خطا به فرضیه مناسبی دست پیدا کند. اما تضمینی برای اينكه اين الكوريتم به مينيمم مطلق برسد وجود ندارد.

صفحه 33:
الگوریتم 80 . شبکه ای با ,(اگره ورودی؛ ممو,,0 گره مخفى؛ و ..(] كره خروجى ايجاد كنيد. ©. همه وزنهارا بايك مقدار تصادفى كوجك عدد دهی اتا رسيدن به شرط يايانى ) كوجك شدن خطا( مراحل زير را انجام دهيد: مثالهای آموزشی»« براى هر ارا به سمت جلو در شبكه انتشار دهيد 6 مثال .را به سمث عقب در شبكه انتشار دهيد ع خطای هر مثال أموزشى بصورت يك زوج (,») ارائه ميشود که بردار « مقادیر ورودی و بردار ؛ مقادیر هدف برای خروجی شبکه را تعیین میکنند.

صفحه 34:
0 برای هر مثال )ا مقدار خروجى هر واحد را محاسبه كنيد تا به كره هاى خروجى برسید. ١ 201121164 014 function Example al

صفحه 35:
انتشار به سمت عقب 2.06 برای هر واحد خروجی جمله خطا را بصورت زیر محاسبه کنید: = ,5 ‎O, (1-0,)(t, - O,)‏ © برای هر واحد مخفی جمله خطا را بصورت زير محاسبه کنید: ,0 < ۰ ۷ 2 (,1-0) ©. مقدارهر وزن را بصورت زیر تغییر دهید: ‎w, = W, + AW,‏ 8 0 که در آن : ‎AW, = 76, X,‏ ‎olen‏ است از نرخ يادكيرى ‎

صفحه 36:
شرط خاتمه معمولا الگوریتم 80 پیش از خاتمه هزاران بار با استفاده همان داده های آموزشی تکرار میگردد شروط مختلفی را میتوان برای خاتمه الگوریتم بکار برد: ‎O‏ توقف بعد از تكرار به دفعات معين ‎٠‏ توقف وقتى كه خطا از يك مقدار تعيين شده كمتر شود 1 توقف وقتى كه خطا در مثالهاى مجموعه تائيد از قاعده خاصى بيروى نمايد اكر دفعات تكرار كم باشد خطا خواهيم داشت و اكر زياد باشد مسئله ‎Overfitting‏ ‏ارخ خواهد داد.

صفحه 37:
محنی یادگیری 14 2ن 10 2 5 5 1 6 a4 0 50 100 150 200 250 300 350 400 Number of epochs

صفحه 38:
مرور الگوریتم 8۳ | این الگوریتم یک جستجوی ]065661۱ 0۲201606 در فضای وزنها انجام سار 1 ممکن است در یک مینیمم محلی گیر بيافند. | در عمل بسیار موثر بوده است. برای پرهیز از مینیمم محلی روشهای مختلفی وجود دارد: !| افزودن ممنتم ۲ استفاده از ‎stochastic gradient descent‏ ‎DI‏ استفاده ازشبکه های مختلف با مقادیر متفاوتی برای وزنهای اولیه

صفحه 39:
افزودن ممنكم ‎٠‏ ميتوان قانون تغيير وزنها را طورى در نظر كرفت كه تغيير وزن در تكرار ‏ ام تا حدی به اندازه تغییروزن در تکرار قبلی بستكى داشته باشد. ‎AW, (n) = 6X, + aAW, (n-1)‏ ‏که در آن مقدارممنتم 0 بصورت () << 1 =< 6 میباشد. ۳ ‎ca ‎ ‏افزودن ممنتم باعث ميشود تا با حركت در مسير 17 از كير افتادن در مينيم محلى برهيز شود 0 از قرارگرفتن در سطوح صاف برهيز شود ‏]با افزایش تدریجی مقدار پله تغییرات. سرعت جستجو اقزایش یابد. ‎

صفحه 40:
قدرت نمایش توابع 1 گرچه قدرت نمایش توابع به توسط یک شبکه ‎4:4iu feedforward‏ عمق و گستردگی شبکه دارد» با این وجود موارد زیر را میتوان به صورت قوانین کلی بیان نمود: ۱ آا توایع بولی: هر تابع بولی را میتوان توسط یک شبکه دو لایه پیاده سازی ۶ نمود. ل توابع پیوسته: هر تابع پیوسته محدود را میتوان توسط یک شبکه دو ‎AY‏ ‏تقریب زد. تثوری مربوطه در مورد شبکه هانی که از تابع سیگمونید در لایه پنهان و لایه خطی در شبکه خروجی استفاده میکنند صادق است. آا توابع دلخواه: هر تابع دلخواه را میتوان با یک شبکه سه لایه تا حد قابل قبولی تفریب زد.

صفحه 41:
فضای فرضیه و بایاس استقرا 1 فضای فرضیه مورد جستجو را میتوان بصورت یک فضای فرضیه اقلیدسی ۲ بعدی از وزنهای شبکه در نظر گرفت )که( تعداد وزنهاست( 1 این فضای فرضیه بر خلاف فضای فرضیه درخت تصمیم یک فضای پیوسته است. 7 بایاس استقرا این روش را میتوان بصورت زیر بیان کرد: ‎"smooth interpolation between data points“‏ به اين معنا كه الكوريتم 88 سعی میکند تا نقاطی را که به هم نزدیکتر هستند در یک دسته بندی قرار دهد.

صفحه 42:
Smooth regions

صفحه 43:
قدرت نمایش لایه پنهان 1 آشکاری از داده ورودی نشان دهد. برای مثال شبکه 0:60:60 زیر طوری آموزش داده میشود که مقدارهرمثال ورودى را عينا در خروجى بوجو د آورد )تابع <-()0 را ياد بكيرد( ساختار خاص اين شبكه باعث ميشود تا واحد هاى لایه وسط ویژگی های مقادیر ورودی را به نحوی کد بندی کنند که لایه خروحی بتواند از آنان برای نمایش مجدد داده ها استفاده نماید. یکی از خواص 8۳ این است که میتواند در لاه های پنهان شبکه ویژگیهای نا

صفحه 44:
قدرت نمایش لایه پنهان در اين آزمايش كه به تعداد 6000000 بار تكرار شده از © داده مختلف به عنوان ورودى استفاده شده و شبكه با استفاده از الگوریتم 002 موفق شده تا تابع هدف را بياموزد. 10000000 10000000 01000000 01000000 0000 00100000 - 00010000 1000 ——Hidden nodes—~)9991000 10000100 eee 00000100 000010 00000010 000001 00000001 با مشاهده خروجی واحد های لایه میانی مشخص میشود که بردار حاصل معادا انکدینگ استاندارد داده ههای ورودی بوده است (400,...,,)20000,)0000)

صفحه 45:
نمودارخطا ee units iterations ifferent weights iterations

صفحه 46:
قدرت تعمیم و 0۷6۲۲۲۱0 * شرط پاین الگوریتم 960) چیست؟ | © یک انتخاب اين است که الگوریتم را آنقدر ادامه دهیم تا خطا از ! مقدار معینی کمتر شود. اين امر میتواند منجر به مره ود Validation set error _ 0 “——~_____ Training set error Number of weight updates

صفحه 47:
دلایل رخ دادن 0۷6۲۲۱۲۲۳9 . 0۷۵۳۴809 ناشیاز تنظیم وزنها براعدر نظر گرفتنثالهاوتادرواست كه ممكنلستها توزيع کلی‌دادم ‏ مطابقتنداشته باشند. تعداد زیاد وزنهای يكشبكه عصبىياعثميشود تا شبكه درجه آزادئزيادويرلءإنطباقيا لين مقاللها دلشته باشد. 1 با افزایش تعداد تکرار؛ پیچیدگی فضای فرضیه یادگرفته شده توسط الگوریتم بیشتر میشود تا شبکه بتواند نویز و مثالهای نادر موجود در مجموعه آموزش را بدرستی ارزیابی نماید.

صفحه 48:
راه حل ٩اه‏ از یک مجموعه تائید ««0() و توقف یادگیری هنگامی كه خطا در اين مجموعه به اندازه کافی کوچک ميشود. | * بایاس کردن شبکه برای فضاهای فرضیه ساده تر: یک راه میتوان استفاده از روحدك كل :د باشد كه در آن مقدار وزنها در بارتكرار باندازه خيلى كمى كاهش داده ميشود. * اهلاس عیرس لا وقتی‌ک 4 تعداد متا لهایآموزش باشد میتولن,» دادم لموزشیرابه ) دسته تقسیم بندوز و آزمایش‌را به تعداد | دفعه تکرار نمود. در هر دفعه دسته. ها بعنوان‌مجموعه تستو بقیه بعنولن‌مجموعه آموز: لستفادم خولهند شد. تصمیم گیرعیر لساس‌میانگین‌نتایج

صفحه 49:
روشهای دی راه های بسیار متنوعی برای ایجاد شبکه های جدید وجود دارد از جمله: 11 استفاده از تعاریف دیگری برای تابع خطا ل استفاده از روشهای دیگری برای کاهش خطا در حین یادگیری ‎Hybrid Global Learning !‏ ‎Simulated Annealing 1‏ ‎Genetic Algorithms 8‏ | استفاده لز توابع دیگری در واحدها ‎Radial Basis Functions 1‏ | استفاده لز ساختار های دیگری برای شبکه ‎Recurrent Network 0‏

صفحه 50:
مثال: تشخیص ارقام لا فرض كنيد بخواهيم با استفاده از یک شبكه دو لايه ارقام دستنويس را تشخيص دهيم. لا نرونهاى لايه اول شدت روشنائى پیکسلها را تقریب میزنند ونرونهای لایه آخر شکل ارقام را تعیین میکنند.

صفحه 51:
کاند لکیام انکهاور ‎PptBank‏ ‏اروشى كه وزنها ياد كرفته میشوند: پمیت د ۰ ۱2 ‎Es‏ سس کی ‎cai‏ تصویر ورودی تصوير به شبکه ارائه شده و وزنهای پیکسلهای فعال بتدریج اضافه میشوند. وزن پیکسلهای غیر موثر نیز بتدریج کاهش میابد.

صفحه 52:

صفحه 53:

صفحه 54:

صفحه 55:

صفحه 56:

صفحه 57:

صفحه 58:
شبکه چه چیزی را یاد میگیرد؟ لا زر این منل یک شبکه با دو لایه معادل با استفاده از یک سری 6 یا قالب است که شبکه قالبی را که بهترین تطبیق با ورودی را داشته باشد بر میگزیند! لا اما برای مسئله ارقام دستنویس شکلهای ورودی بسیار متنوع هستند لذا یک قالب ساده که با همه ورودیها سازگار باشد وجود ندارد. در/نتیجه چنین شبکه ای هم نمیتواند راه حل مسئله در حالت کلی باشد! 1 برای اینکه بتوان مسئله را در حالت کلی حل نمود بایدشکل های ورا به مجموعه ای از ویژگی ها تبدیل شده و شبکه را بر اساس ویژگی آموزش داد.

صفحه 59:
PptBank oo ee ‏مثالی از تنوع ارقام دستنویس‎ ‎(COOSA CAA 2‏ رید و2 2 ۵ ۵ 2 -* 23 ذ 5 4 7 م4 #679 ۶ ۶ 4 1 1 5 72 7 ۶ حه ‎٩ 7 3 ۰ 9 7‏ 9 طٌ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 60:
انواع اتصالات شبکه Feedforward networks ! ‎Recurrent networks 1‏ | این شبکه ها بیشتر به سیستم های بیولوژیکی شبیه تر هستند. ا بعلت داشتن فيد بک دارای دینامیک پیچیده تری هستند. ‎

صفحه 61:
انواع مختلف یادگیری ‎Supervised learning 4‏ 7 سيستم یاد میگیرد که با داشتن بردار ورودی مقدار خروجی را بيش بینی کند ] ناظری لازم است تا خروجی صحیح را تهیه نماید. ‎Reinforcement learning ©‏ . سیستم یاد میگیرد که پاش دریافتی را حداکثر کند 1 سیگنال پاداش اطلاعات 0 اغلب با تاخیر است ‎ ‎ ‏ندارد ‏ار ‎Unsupervised learning ‏يك مدل داخلى از ورودی درست میشود مثلا از طریق کلاسترینگ‎ 0 ‏0 چگونه ميتوان فهميد كه اين مدل صحيح اسث؟ ‎

صفحه 62:
ک‌اند [لگرلمیپ نکپ اور ‎Backpropagation Jc!‏ .4 بوينت تشخیص اشیا انسانها براحتی میترانند اسکال را تشخیص دهند در صورتیکه اینکار برای کامپیوتر ها بسیار سخت است. دلایل سختی اين کار عبارت است از: .Segmentation: Real scenes are cluttered 0 Invariancgs: We are very good at ignoring all sorts of variations that do not ! affect the shape .Defornfations: Natural shape classes allow variations (faces, letters, chairs) 1 -A huge amount of computation is required !

صفحه 63:
کاند لکیام انکهاور ‎PptBank‏ ۲۳6 ۱۳۷۵۲۱۵۵6۵ ۵ 1 Our perceptual systems are very good at dealing with invariances 0 translation, rotation, scaling ‘deformation, contrast, lighting, rate 0 We are so good at this that its hard to appreciate how difficult it is. 0. Its one of the main difficulties in making computers perceive: 0 We still don’t have generally accepted solutions.

صفحه 64:
PptBank ‏كاند لکرلمبانکهاور‎ The invariant feature | approach 1 Extract a large, redundant set of features that are invariant under transformations leg. “pair of parallel lines with a dot between them. 32 0 Wjth enough of these features, there is only one fay to assemble them into an object. we don’t need to represent the relationships between features directly because they are captured by other features. U\\We must avoid forming features from parts of ifferent objects!

صفحه 65:
Do preprocessing to normalize the data e. g. put a box around an object and represent the locations of its pieces relative to this box | Eliminates as many degrees of freedom as the box has. translation, rotation, scale, shear, elongation But its not always easy to choose the box

صفحه 66:
کاند لکیام انکهاور ‎PptBank‏ . بویت The replicated feature ۱ approach Use many different copies of the same feature detector. ‏لك‎ 2 The copies all have slightly have the save weight. different positions. Could also replicate across scale and orientation. of free parameters to be learned. e Several different feature 5, each with its own icated pool of detectors. lows each patch of image to be presented in several ways.

صفحه 67:
Backpropagation with weight constraints It is easy to modify the ‘Th consrela wane backpropagation weneed Aw =Aw, algorithm to incorporate linear constraints between the weights. ع ‎ow‏ oe compute == and ‏ونام‎ 2 0 We compute the gradients as usual, and then modify the gradients so that they satisfy the constraints. So if the weights started off satisfying the constraints, they will continue to satisfy them.

صفحه 68:
5 ۰ پسوینت ‎Combining the outputs of‏ replicated features Get a small amount of translational invariance at each level by averaging four neighboring replicated detectors to give a single output to the next level. {Taking the maximum of the four should work better. “ 1 Achieving invariance in multiple stages seems to be what the monkey visual system does. 0 Segmentation may also be done in multiple stages.

صفحه 69:
كاند لکرلمبانکهاور ‎PptBank‏ The hierarchical partial | invariance approach 1 At each level of the | hierarchy, we use an “or” to get features that are invariant across a bigger range of transformations. eceptive fields in the rain look like this. We can combine this approach with an initial approximate © normalization. ۱

صفحه 70:
Le Net Yann LeCun and others developed a really good recognizer for handwritten digits by using backpropagation in a feedforward net with: l Many hidden layers (Many pools of replicated units in each layer. ‘| Averaging of the outputs of nearby replicated units. ‘| A wide net that can cope with several characters at once even if they overlap. Look at all of the demos of LENET at http://yann.lecun.com

صفحه 71:
PptBank ‏کانللگرلمیبلنکباور‎ ‎The architecture of LeNet5 cs teat Cait; maps 18@10r10, 5 feature maps 4: f. maps 16@5x5, INPUT Soeur ap Full connection Gaussian | Convolutions Subsampling _Convolutions- Subsampling Full connection

صفحه 72:
کاندٍلکیلمیپ لنکهاور ‎PptBank‏

صفحه 73:

صفحه 74:

صفحه 75:

صفحه 76:

صفحه 77:
۴۳۲۲ ۹ ۱ ‏و‎ ‎MR este SEE Pe hee pe oe oe gio fie | RHEE کاند لکیام انکهاور ‎PptBank‏

صفحه 78:
1 11 ۳ عیبر کب |

صفحه 79:

صفحه 80:
Se Fa ae ee crs 72 ا fark کاند لکیام انکهاور ‎PptBank‏

صفحه 81:
() 82۲6 م2 Test error (no distortions) 1a oe ~ 8. 9 5 1 ~~ est error (with distortions) Training error (no distortions) a ‏ل‎ Training Set Size (x1000) Fig. 6. Training and test errors of LeNet-5 achieved using training sets of various sizes. This graph suggests that a larger training set could improve the performance of LeNet-5. ‘The hollow square show the test error when more training patterns are artificially generated using random distortions. ‘The test patterns are not distorted. PptBi

صفحه 82:
(ه 3< 3 1- زو ان زم ون تع له 3و يه زو قت تس دص ژج تم ژد ح ژه زج تم مه دی دی هم ژه زد زد 4 ون وعد تعر ثم ره تسر زّى نه 3ه زد اه ثم تس زم زم ددص زج زب داح مه ‎wd,‏ هم زص لح مه اه ام آد ده اه آه ام ‎t 1‏ كع لاعا لاط نان ج82 7118

صفحه 83:
A brute force approach LeNet uses knowledge about the invariances to design: the network architecture (or the weight constraints ( or the types of feature But its much simpler to incorporate knowledge 1 Le by just creating extra training jata: 1 for each training image, produce new training data by applying all of the transformations we want to be insensitive to (Le Net can benefit from this too) Then train a large, dumb net on a fast computer. 1 This works surprisingly well if the transformations are not too big (so do approximate normalization first).

صفحه 84:
tBank king dumb backpropagation really well for recognizing Using the standard viewing transformations plus local deformation fields to get LOTS of data. 0 Use a single hidden layer with very small initial weights: it needs to break symmetry very slowly to find a good local minimum O Use a more appropriate error measure for multi- class categorization.

صفحه 85:
PptBank ‏کاندژلگرلمی‌بنکهاور‎ ‎Problems with squared error a) The squared error measure has some drawbacks U If the desired output is 1 and the actual output is 0.00000001 there is almost no gradient for a logistic unit to fix up the error. 0 If wevare trying to assign probabilities to class labels, we/know that the outputs should sum to 1, but we are d¢priving the network of this knowledge. ere a different cost function that is more propriate and works better? Force the outputs to represent a probability distribution across discrete alternatives.

صفحه 86:
- 0 (رز -) رز 1 OX desired vohue C=- ¥ ajlogy, 1 26 269۳ 0 ره زر OX PptBank ‏كاند لکرلمبانکهاور‎ Softmax Phe pulpal cits use 0 aero tortor:

51,000 تومان