صفحه 1:
صفحه 2:
کانل اکیلمی انکهاور PptBank
Instructor : Saeed Shiry
صفحه 3:
0
معدمه
© شبکه عصبی مصنوعی روشی عملی برای یادگیری توابع
گوناگون نظیر توابع با مقادیر حقیقی توابع با مقادیر گسسته
و توابع با مقادیر برداری میباشد.
٩ یادگیری شبکه عصبی در برابر خطاهای داده های آم
مصون بوده و اینگونه شبکه ها با موفقیت به مسائلی ند
شناسائی گفتار. شناسائی و تعبیر تصاویر» و یادگیری رژبات
اعمال شده است .
صفحه 4:
روشی برای محاسبه است که بر پایه اتصال به
هم پیوسته چندین واحد پردازشی ساخته
میشود.
شبکه از تعداد دلخواهی سلول یا گره یا واحد یا
نرون تشکیل میشود که مجموعه ورودی را به
خروجی ربط میدهند.
wy
۲ iddes bayer
صفحه 5:
شبکه عصبی چه قابلیتهانی دارد؟
محاسبه یک تابع معلوم
تقریب یک تابع ناشناخته
شناسانی الگو
پردازش سیکنال
یادگیری
صفحه 6:
PptBank نک je
tea مسائل مناسب برای یا دگیر ى
wnat
© خطا در داده های آموزشی وجود داشته باشد.
© مثل مسائلی که داده های آموزشی دارای نویز حاصل از دادهای
سنسورها نظیر دوربین و میکروفن ها هستند.
© مواردی که نمونه ها توسط مقادیر زیادی زوج ویژگی-مقدار نشان داده
شده باشند. نظیر داده های حاصل از یک دوربین ویدئونی.
* تابع هدف دارای مقادیر پیوسته باشد.
© زمان کافی برای یادگیری وجود داشته باشد. اين روش در مقايسه ب
روشهای دیگر نظیر درخت تصمیم نیاز به زمان بیشتری برای یادگیر)
دارد.
۶ نیازی به تعبیر تابع هدف نباشد. زیرا به سختی میتوان وزنهای یادگرة
شده توسط شبکه را تعبیر نمود.
صفحه 7:
الهام از طبیعت
1 مطالعه شبکه های عصبی مصنوعی تا حد زیادی ملهم از سیستم
cle پادگیر طبیعی است که در آنها یک مجموعه پیچیده از
نرونهای به هم متصل در کار یادگیری دخیل هستند.
fl گمان میرود که مغز انسان از تعداد 00 نرون تشکیل شده باشد
که هر نرون با تقریبا 008 نرون دیگر در ارتباط است.
1 سرعت سوئیچنگ نرونها در حدود 9000 ثانیه است که در مقایسه
با کامپیوترها UD :۹0 ) ثانیه ( بسیار ناچیز مینماید. با این وجود
آدمی قادر است در ).0) ثانیه تصویر یک انسان را بازشناسانی
نماید. این قدرت فوق العاده باید از پردازش موازی توزیع شده در
تعدادی زیادی از نرونها حاصل شده باشد.
صفحه 8:
@ervepivcda
۴ نوعی از شبکه عصبی برمبنای یک واحد محاسباتی به نام پرسپترون
ساخته میشود. یک پرسپترون برداری از ورودیهای با مقادیر حقیقی را
گرفته و یک ترکیب خطی از این ورودیها را محاسبه میکند. اگر حاصل
از یک مقدار آستانه بیشتر بود خروجی پرسپترون برابر با ۸ و در غير
اینصورت معادل -) خواهد بود.
{1 or -1}
صفحه 9:
بوينت
یادگیری یک پرسپترون
٩ خروحی پرسپترون توسط رابطه زیر مشخص میشود:
wnxn > 0 + ... + 72:2 + ۷1:1 + ۷0 ]1 1
O(x1,x2,...,.xn)-F otherwise
* که برای سادگی آنرا میتوان بصورت زير نشان داد: /
O(X) = So) where
lify>0
as
Sgn{y) = +1 otherwise
یادگیری پرسپترون عبارت است از:
پیدا کردن مقادیردرستی برای ()
بنابراین فضای فرضیه را" در یادگیری پرسپترون عبارت است ازمجموعه تمام مقادیر حقیقی,
ممکن برای بردارهای وزن.
صفحه 10:
توانائی پرسپترون
۴ پریسترون را میتوان بصورت یک سطح تصمیم عممامسومو| در
فضاى © بعدی نمونه ها در نظر گرفت. پرسپترون برای نمونه های
یک طرف صفحه مقدار ) و برای مقادیر طرف دیگر مقدار -) بوجود
میاورد.
Decision boundary (WX = 0)
صفحه 11:
ميباث
۳ كاد PptB a
توابعی که پرسپترون قادر به یادجی وش ia 3
اشد
Pe cay yh یک پرسپترون فقط قادر است ٩
جداپذیر باشند. اینگونه مثالها مواردی هستند که بطور کامل توسط یک
عممامسمرولقابل جدا سازی میباشند.
early separable Non-linearly separable
صفحه 12:
توابع بولی و پرسپترون
NOR ,۱۱۸۱۱3 ,0۴8 ,۵۱۱0 یک پرسپترون میتواند بسیاری از توابع بولی را نمایش دهد نظیر
.را نمايش دهد 01 اما نميتوائد . 1
صفحه 13:
اضافه کردن بایاس
افزودن بایاس موجب میشود تا استفاده از شبکه 9
.پرسپترون با سهولت بیشتری انجام شود
گیری بایاس نیازی به استفاده از
باشیم بایاس را بصورت یک
را ۷10 ورودی با مقدار ثابت 4 در نظر گرفته و وزن
يه آن لختصاص میدهیم
J=W+ S XW
jel
صفحه 14:
آموزش پرسپترون
چگونه وزنهای یک پرسپترون واحد را یاد بگیریم به نحوی که پرسپترون برای
مثالهای آموزشی مقادیر صحیح را ایجاد
دو راه مختلف :
0 ككون برسبترمن
toss 0
صفحه 15:
آموزش پرسپترون
الگوریتم یادگیری پرسپترون
2.0 مقادیری تصادفی به وزنها نسبت میدهیم
6 پرسپترون را به تک تک مثالهای آموزشی اعمال میکنیم.اگر مثال غلط
ارزیابی شود مقادیر وزنهای پرسپترون را تصحیح میکنیم.
...یا تمامی مثالهای آموزشی درست ارزیابی میشوند:
17 بله 1 بايان الكوريتم
17 خیراابه مرحله ۵ برمیگردیم
صفحه 16:
قانون پرسپترون
در هر مرحله وزنها بر (0 ,... ,2 ,21) < 6ربرای یک مثال آموزشی . 1
:اساس قانون پرسپتون بصورت ز؛
+ Awi
كه در أن
)۲-۵( ۵
output
ut generated by the perceptron
tant called the learning rate (e.g., 0.1)
Chal 2d SS که برای یک مجموعه مثال جدایذیرخطی ابن روش همگرا
شده و پرسپترون قادر به جدا سازی صحیح مثالها خواهد شد.
صفحه 17:
قانون دلتا ۲6۷۱6 Delta
وقتی که مثالها بصورت خطی جداپذیر نباشند قانون پرسپترون همگرا نخواهد شد.
برای غلبه بر اين مشکل از قانون دلتا استفاده میشود.
0 ایده اصلی این قانون استفاده از 0656601 9۲20/1601 برای جستجو در فضای
فرضيه وزنهاى ممكن ميباشد. اين قانون y Back propagation 3 4b
است که برای آموزش شبکه با چندین نرون به هم متصل بکار میرود. é
1 همچنین این روش پایه ای برای انواع الگوریتمهای یادگیری است که باید فضای
فرضیه ای شامل فرضیه های مختلف پیوسته را جستجو کنند.
صفحه 18:
Rule ۱26۱2 قانون دلتا
برای درک بهتر این روش آنرا به یک پرسپترون فاقد حد آستانه اعمال میکنیم. در
انجا لازم است ابتدا تعریفی برای خطا ی آموزش ارانه شود. یک تعریف متداول
این چنین است:
E=% 5, (t,-0)2
كه اين مجموع برای تمام مثالهای آموزشی انجام میشود.
صفحه 19:
کاند [لگرلمیپ نکپ اور
١ وت
الگوریتم gradient descent
| با توجه به نحوه تعریف ع] سطح خطا بصورت یک سهمی خواهد
بود. ما بدنبال وزنهائى هستيم كه حداقل خطا را داشته باشند .
الكوريتم 06566۳1 9۲۵01601 در فضای وزنها بدنبال
برداری میگردد که خطا را حداقل کند. اين الگوریتم از یک مقدار
دلخواه برای بردار وزن شروع کرده و در هر مرحله وزنها را
طوری تغییر میدهد که در جهت شیب کاهشی منحنی فوق خطا E(W)
کاهش داده شود.
wl
صفحه 20:
بدست آوردن قانون 0۲۵016۳1
descent
fl ایده اصلی: گرادیان همواره در جهت افز
1 گرادیان ع نسبت به بردار وزن ۷۷ بصورت زیر تعریف میشود:
۴/۷۳ ,۰.۰ ,۴/۷1 ,۴/۵ ] < (۷۷) ۴
0 کهدر آن (۷۷) ] یک بردارو ع مشتق جزئی نسبت به هر وزن ميباشد.
صفحه 21:
Delta Rule قانون دلتا
آا برای یک مثال آموزشی(۳ 2 ,1) < 2 در هر مرحله وزنها بر
اساس قانون دلتا بصورت زير تغییر میکند:
wi = wi + Awi
Where Awi = -n E'(W)/wi
learning rate (e.g., 0.1) :1
علامت منفی نشاندهنده حرکت در جهت کاهش شیب است.
صفحه 22:
محاسبه گرادیان
1 با مشتق گیری جزئی از رابطه خطا میتوان بسادگی گرادیان را محاسبه نمود:
E'(W)/ w, = 2, (t= O)) (-x)
| لذا وزنها طبق رابطه زیر تغییر خواهند نمود.
Awi = 1 Zi (ti - oi) xi
صفحه 23:
خلاصه یادگیری قانون دلتا
الگوریتم یادگیری با استفاده از قانون دلتا بصورت زیر میباشد.
2.0 به وزنها مقدار تصادفی نسبت دهید
©. 2 تارسیدن به شرایط توقف مراحل زیر را ادامه دهید
1غ هر وژن لا رادار صفر عدددهی اولیه كنيد
1 برای هر مثال: وزن ,لا را بصورت زپر تغیر دهید:
w, = w,+n(t-o)x,
:را بصورت زير تغيير دهيد ,» مقدار 1
ow را
تا خطا بسیار کوچک شود ۲
صفحه 24:
مشکلات روش ]01656610 0۲۵016۲
2.6 ممکن است همگرا شدن به یک مقدار
©. اگر در سطح خطا چندین مینیمم محلی وجود داشته باشد تضمینی وجود ندارد
كه الكوريتم مينيمم مطلق را بيدا بكند.
زمان زيادى لازم داشته باشد.
در ضمن ابن روش وقتى قابل استفاده است كه:
1 فضاى فرضيه داراى فرضيه هاى بارامتريك بيوسته باشد.
0 رابطه خطا قابل مشتق كيرى باشد.
صفحه 25:
بير وزنها پس از مشاهده همه مثالهاه آنها را بازا هر مثال مشاهده
داد. در این حالت وزنها بصورت افزایشی ۳6۲۵۳6۳۲۵۱
میکنند. این روش را stochastic gradient descent نیزمیناه
Ww, = n (t-o) x,
يتواند از بروز مینیمم محلی جلوگیری کند.
نتری دارد درعوض میتواند طول 5060
در بعضی موارد تغییر افزایشی وزنها
روش استاندارد نياز ب
بزرگتری هم داشته باشد.
صفحه 26:
کاند لکیام انکهاور PptBank
مقایسه آموزش یکجا و افزایشی
* آموزش افزایشی (60۷۳ * آموزش یکجا (مسسا (@etck |
مسا
صفحه 27:
بر خلاف پ,سپترونها شبکه های چند لایه میتوانند برای یادگیری مسائل غیر
خطی و همچنین مسائلی با تصمیم گیری های متعدد بکار روند.
صفحه 28:
صفحه 29:
بيت
یک سلول واحد
برای اینکه بتوانیم فضای تصمیم گیری را بصورت غیر خطی از هم جدا
بکنیم. لازم است تا هر سلول واحد را بصورت یک تابع غیر خطی تعریف
نمائیم. مثالی از چنین سلولی میتواند یک واحد سیگموئید باشد:
0
O=o(net)=1/1+e7
صفحه 30:
تابع سیگمونید
خروجی این سلول واحد را بصورت زیر میتوان بیان نمود:
O(x1,x2,...,xn) & ( WX )
لاج + 1 / 1 ع ( ۷۷ )07 :136۲6
oly) /dy =o(y) (1 - ofy))
صفحه 31:
seal gots
’ Back propagation الگوریتم
برای یادگیری وزن های یک شبکه چند لایه از روش Back Propagation
استفاده میشود. در این روش با استفاده از 46566۳6 9۲20160 سعی میشود
تا مربع خطای بین خروجی های شبکه و تابع هدف مینیمم شود.
خطا بصورت زیر تعریف میشود:
[ه معا < << ۱۷
2 cedicoutputs
مراد از ویس خروجیهای مجموعه واحد های لایه خروجی و ,او بت مقدا
هدف و خروجی متناظر با > امین واحد خروجی و مثال آموزشی 4 است.
صفحه 32:
کاند لکیام انکهاور PptBank
الگوریتم 0۳00۵9۵110۳ 83601
1 فضای فرضیه مورد جستجو در اين روش عبارت است از فضای بزرگی که توسط
همه مقادیر ممکن برای وزنها تعریف ميشود. روش 06566۳6 9۲۵0160۲
سعی میکند تا با مینیمم كردن خطا به فرضیه مناسبی دست پیدا کند. اما تضمینی
برای اينكه اين الكوريتم به مينيمم مطلق برسد وجود ندارد.
صفحه 33:
الگوریتم 80
. شبکه ای با ,(اگره ورودی؛ ممو,,0 گره مخفى؛ و ..(] كره خروجى ايجاد
كنيد.
©. همه وزنهارا بايك مقدار تصادفى كوجك عدد دهی
اتا رسيدن به شرط يايانى ) كوجك شدن خطا( مراحل زير را انجام دهيد:
مثالهای آموزشی»« براى هر
ارا به سمت جلو در شبكه انتشار دهيد 6 مثال
.را به سمث عقب در شبكه انتشار دهيد ع خطای
هر مثال أموزشى بصورت يك زوج (,») ارائه ميشود که بردار « مقادیر ورودی و بردار ؛ مقادیر
هدف برای خروجی شبکه را تعیین میکنند.
صفحه 34:
0 برای هر مثال )ا مقدار خروجى هر واحد را محاسبه كنيد تا به كره هاى خروجى
برسید.
١
201121164 014
function
Example al
صفحه 35:
انتشار به سمت عقب
2.06 برای هر واحد خروجی جمله خطا را بصورت زیر محاسبه کنید: = ,5
O, (1-0,)(t, - O,)
© برای هر واحد مخفی جمله خطا را بصورت زير محاسبه کنید: ,0 <
۰ ۷ 2 (,1-0)
©. مقدارهر وزن را بصورت زیر تغییر دهید:
w, = W, + AW,
8
0
که در آن :
AW, = 76, X,
olen است از نرخ يادكيرى
صفحه 36:
شرط خاتمه
معمولا الگوریتم 80 پیش از خاتمه هزاران بار با استفاده همان داده های آموزشی
تکرار میگردد شروط مختلفی را میتوان برای خاتمه الگوریتم بکار برد:
O توقف بعد از تكرار به دفعات معين
٠ توقف وقتى كه خطا از يك مقدار تعيين شده كمتر شود
1 توقف وقتى كه خطا در مثالهاى مجموعه تائيد از قاعده خاصى بيروى نمايد
اكر دفعات تكرار كم باشد خطا خواهيم داشت و اكر زياد باشد مسئله Overfitting
ارخ خواهد داد.
صفحه 37:
محنی یادگیری
14
2ن
10 2
5
5
1 6
a4
0 50 100 150 200 250 300 350 400
Number of epochs
صفحه 38:
مرور الگوریتم 8۳
| این الگوریتم یک جستجوی ]065661۱ 0۲201606 در فضای وزنها انجام
سار
1 ممکن است در یک مینیمم محلی گیر بيافند.
| در عمل بسیار موثر بوده است.
برای پرهیز از مینیمم محلی روشهای مختلفی وجود دارد:
!| افزودن ممنتم
۲ استفاده از stochastic gradient descent
DI استفاده ازشبکه های مختلف با مقادیر متفاوتی برای وزنهای اولیه
صفحه 39:
افزودن ممنكم
٠ ميتوان قانون تغيير وزنها را طورى در نظر كرفت كه تغيير وزن در تكرار ام تا حدی به اندازه
تغییروزن در تکرار قبلی بستكى داشته باشد.
AW, (n) = 6X, + aAW, (n-1)
که در آن مقدارممنتم 0 بصورت () << 1 =< 6 میباشد. ۳
ca
افزودن ممنتم باعث ميشود تا با حركت در مسير
17 از كير افتادن در مينيم محلى برهيز شود
0 از قرارگرفتن در سطوح صاف برهيز شود
]با افزایش تدریجی مقدار پله تغییرات. سرعت جستجو اقزایش یابد.
صفحه 40:
قدرت نمایش توابع
1 گرچه قدرت نمایش توابع به توسط یک شبکه 4:4iu feedforward
عمق و گستردگی شبکه دارد» با این وجود موارد زیر را میتوان به
صورت قوانین کلی بیان نمود: ۱
آا توایع بولی: هر تابع بولی را میتوان توسط یک شبکه دو لایه پیاده سازی ۶
نمود.
ل توابع پیوسته: هر تابع پیوسته محدود را میتوان توسط یک شبکه دو AY
تقریب زد. تثوری مربوطه در مورد شبکه هانی که از تابع سیگمونید در
لایه پنهان و لایه خطی در شبکه خروجی استفاده میکنند صادق است.
آا توابع دلخواه: هر تابع دلخواه را میتوان با یک شبکه سه لایه تا حد قابل
قبولی تفریب زد.
صفحه 41:
فضای فرضیه و بایاس استقرا
1 فضای فرضیه مورد جستجو را میتوان بصورت یک فضای فرضیه اقلیدسی ۲
بعدی از وزنهای شبکه در نظر گرفت )که( تعداد وزنهاست(
1 این فضای فرضیه بر خلاف فضای فرضیه درخت تصمیم یک فضای پیوسته است.
7 بایاس استقرا این روش را میتوان بصورت زیر بیان کرد:
"smooth interpolation between data points“
به اين معنا كه الكوريتم 88 سعی میکند تا نقاطی را که به هم نزدیکتر هستند در یک
دسته بندی قرار دهد.
صفحه 42:
Smooth regions
صفحه 43:
قدرت نمایش لایه پنهان
1
آشکاری از داده ورودی نشان دهد.
برای مثال شبکه 0:60:60 زیر طوری
آموزش داده میشود که مقدارهرمثال
ورودى را عينا در خروجى بوجو د
آورد )تابع <-()0 را ياد بكيرد( ساختار
خاص اين شبكه باعث ميشود تا واحد هاى
لایه وسط ویژگی های مقادیر ورودی را به
نحوی کد بندی کنند که لایه خروحی بتواند
از آنان برای نمایش مجدد داده ها استفاده
نماید.
یکی از خواص 8۳ این است که میتواند در لاه های پنهان شبکه ویژگیهای نا
صفحه 44:
قدرت نمایش لایه پنهان
در اين آزمايش كه به تعداد 6000000 بار تكرار شده از © داده
مختلف به عنوان ورودى استفاده شده و شبكه با استفاده از الگوریتم
002 موفق شده تا تابع هدف را بياموزد.
10000000 10000000
01000000 01000000
0000 00100000
- 00010000
1000 ——Hidden nodes—~)9991000
10000100 eee 00000100
000010 00000010
000001 00000001
با مشاهده خروجی واحد های لایه میانی مشخص میشود که بردار حاصل معادا
انکدینگ استاندارد داده ههای ورودی بوده است (400,...,,)20000,)0000)
صفحه 45:
نمودارخطا
ee units
iterations
ifferent weights
iterations
صفحه 46:
قدرت تعمیم و 0۷6۲۲۲۱0
* شرط پاین الگوریتم 960) چیست؟ |
© یک انتخاب اين است که الگوریتم را آنقدر ادامه دهیم تا خطا از !
مقدار معینی کمتر شود. اين امر میتواند منجر به مره
ود
Validation set error
_ 0
“——~_____ Training set error
Number of weight updates
صفحه 47:
دلایل رخ دادن 0۷6۲۲۱۲۲۳9
. 0۷۵۳۴809 ناشیاز تنظیم وزنها براعدر نظر گرفتنثالهاوتادرواست
كه ممكنلستها توزيع کلیدادم مطابقتنداشته باشند. تعداد زیاد وزنهای
يكشبكه عصبىياعثميشود تا شبكه درجه آزادئزيادويرلءإنطباقيا لين
مقاللها دلشته باشد.
1 با افزایش تعداد تکرار؛ پیچیدگی فضای فرضیه یادگرفته شده توسط الگوریتم بیشتر
میشود تا شبکه بتواند نویز و مثالهای نادر موجود در مجموعه آموزش
را بدرستی ارزیابی نماید.
صفحه 48:
راه حل
٩اه از یک مجموعه تائید ««0() و توقف یادگیری هنگامی
كه خطا در اين مجموعه به اندازه کافی کوچک ميشود. |
* بایاس کردن شبکه برای فضاهای فرضیه ساده تر: یک راه میتوان
استفاده از روحدك كل :د باشد كه در آن مقدار وزنها در
بارتكرار باندازه خيلى كمى كاهش داده ميشود.
* اهلاس عیرس لا وقتیک 4 تعداد متا لهایآموزش
باشد میتولن,» دادم لموزشیرابه ) دسته تقسیم بندوز
و آزمایشرا به تعداد | دفعه تکرار نمود. در هر دفعه
دسته. ها بعنوانمجموعه تستو بقیه بعنولنمجموعه آموز:
لستفادم خولهند شد. تصمیم گیرعیر لساسمیانگیننتایج
صفحه 49:
روشهای دی
راه های بسیار متنوعی برای ایجاد شبکه های جدید وجود دارد از جمله:
11 استفاده از تعاریف دیگری برای تابع خطا
ل استفاده از روشهای دیگری برای کاهش خطا در حین یادگیری
Hybrid Global Learning !
Simulated Annealing 1
Genetic Algorithms 8
| استفاده لز توابع دیگری در واحدها
Radial Basis Functions 1
| استفاده لز ساختار های دیگری برای شبکه
Recurrent Network 0
صفحه 50:
مثال: تشخیص ارقام
لا فرض كنيد بخواهيم با استفاده از یک
شبكه دو لايه ارقام دستنويس را
تشخيص دهيم.
لا نرونهاى لايه اول شدت روشنائى
پیکسلها را تقریب میزنند ونرونهای لایه
آخر شکل ارقام را تعیین میکنند.
صفحه 51:
کاند لکیام انکهاور PptBank
اروشى كه وزنها ياد كرفته میشوند: پمیت
د ۰ ۱2
Es سس
کی cai
تصویر ورودی
تصوير به شبکه ارائه شده و وزنهای پیکسلهای فعال بتدریج اضافه میشوند.
وزن پیکسلهای غیر موثر نیز بتدریج کاهش میابد.
صفحه 52:
صفحه 53:
صفحه 54:
صفحه 55:
صفحه 56:
صفحه 57:
صفحه 58:
شبکه چه چیزی را یاد میگیرد؟
لا زر این منل یک شبکه با دو لایه معادل با استفاده از یک سری
6 یا قالب است که شبکه قالبی را که بهترین تطبیق با
ورودی را داشته باشد بر میگزیند!
لا اما برای مسئله ارقام دستنویس شکلهای ورودی بسیار متنوع هستند لذا
یک قالب ساده که با همه ورودیها سازگار باشد وجود ندارد. در/نتیجه
چنین شبکه ای هم نمیتواند راه حل مسئله در حالت کلی باشد!
1 برای اینکه بتوان مسئله را در حالت کلی حل نمود بایدشکل های ورا
به مجموعه ای از ویژگی ها تبدیل شده و شبکه را بر اساس ویژگی
آموزش داد.
صفحه 59:
PptBank oo ee
مثالی از تنوع ارقام دستنویس
(COOSA CAA 2
رید و2 2 ۵ ۵ 2 -* 23
ذ 5 4 7 م4 #679
۶ ۶ 4 1 1 5 72 7 ۶ حه
٩ 7 3 ۰ 9 7 9 طٌ
صفحه 60:
انواع اتصالات شبکه
Feedforward networks !
Recurrent networks 1
| این شبکه ها بیشتر به سیستم های
بیولوژیکی شبیه تر هستند.
ا بعلت داشتن فيد بک دارای دینامیک
پیچیده تری هستند.
صفحه 61:
انواع مختلف یادگیری
Supervised learning 4
7 سيستم یاد میگیرد که با داشتن بردار ورودی مقدار خروجی را بيش بینی کند
] ناظری لازم است تا خروجی صحیح را تهیه نماید.
Reinforcement learning ©
. سیستم یاد میگیرد که پاش دریافتی را حداکثر کند
1 سیگنال پاداش اطلاعات
0 اغلب با تاخیر است
ندارد
ار
Unsupervised learning
يك مدل داخلى از ورودی درست میشود مثلا از طریق کلاسترینگ 0
0 چگونه ميتوان فهميد كه اين مدل صحيح اسث؟
صفحه 62:
کاند [لگرلمیپ نکپ اور
Backpropagation Jc! .4 بوينت
تشخیص اشیا
انسانها براحتی میترانند اسکال را تشخیص دهند
در صورتیکه اینکار برای کامپیوتر ها بسیار سخت است.
دلایل سختی اين کار عبارت است از:
.Segmentation: Real scenes are cluttered 0
Invariancgs: We are very good at ignoring all sorts of variations that do not !
affect the shape
.Defornfations: Natural shape classes allow variations (faces, letters, chairs) 1
-A huge amount of computation is required !
صفحه 63:
کاند لکیام انکهاور PptBank
۲۳6 ۱۳۷۵۲۱۵۵6۵ ۵
1 Our perceptual systems are very good at dealing
with invariances
0 translation, rotation, scaling
‘deformation, contrast, lighting, rate
0 We are so good at this that its hard to appreciate
how difficult it is.
0. Its one of the main difficulties in making computers
perceive:
0 We still don’t have generally accepted solutions.
صفحه 64:
PptBank كاند لکرلمبانکهاور
The invariant feature
| approach
1 Extract a large, redundant set of features that
are invariant under transformations
leg. “pair of parallel lines with a dot between them.
32
0 Wjth enough of these features, there is only one
fay to assemble them into an object.
we don’t need to represent the relationships between
features directly because they are captured by other
features.
U\\We must avoid forming features from parts of
ifferent objects!
صفحه 65:
Do preprocessing to normalize the data
e. g. put a box around an object and represent the locations of its pieces
relative to this box
| Eliminates as many degrees of freedom as the box has.
translation, rotation, scale, shear, elongation
But its not always easy to choose the box
صفحه 66:
کاند لکیام انکهاور PptBank
. بویت
The replicated feature
۱ approach
Use many different copies of the
same feature detector. لك 2
The copies all have slightly have the save weight.
different positions.
Could also replicate across scale
and orientation.
of free parameters to be learned.
e Several different feature
5, each with its own
icated pool of detectors.
lows each patch of image to be
presented in several ways.
صفحه 67:
Backpropagation with weight
constraints
It is easy to modify the ‘Th consrela wane
backpropagation weneed Aw =Aw,
algorithm to incorporate
linear constraints
between the weights.
ع
ow
oe
compute == and
ونام 2
0 We compute the
gradients as usual, and
then modify the gradients
so that they satisfy the
constraints.
So if the weights started
off satisfying the
constraints, they will
continue to satisfy them.
صفحه 68:
5 ۰ پسوینت
Combining the outputs of
replicated features
Get a small amount of translational invariance at
each level by averaging four neighboring replicated
detectors to give a single output to the next level.
{Taking the maximum of the four should work better.
“ 1 Achieving invariance in multiple stages seems to be
what the monkey visual system does.
0 Segmentation may also be done in multiple stages.
صفحه 69:
كاند لکرلمبانکهاور PptBank
The hierarchical partial
| invariance approach
1 At each level of the
| hierarchy, we use an
“or” to get features that
are invariant across a
bigger range of
transformations.
eceptive fields in the
rain look like this.
We can combine this
approach with an initial
approximate ©
normalization.
۱
صفحه 70:
Le Net
Yann LeCun and others developed a really
good recognizer for handwritten digits by
using backpropagation in a feedforward net
with:
l Many hidden layers
(Many pools of replicated units in each layer.
‘| Averaging of the outputs of nearby replicated units.
‘| A wide net that can cope with several characters at
once even if they overlap.
Look at all of the demos of LENET at
http://yann.lecun.com
صفحه 71:
PptBank کانللگرلمیبلنکباور
The architecture of LeNet5
cs teat Cait; maps 18@10r10, 5
feature maps 4: f. maps 16@5x5,
INPUT Soeur ap
Full connection Gaussian |
Convolutions Subsampling _Convolutions- Subsampling Full connection
صفحه 72:
کاندٍلکیلمیپ لنکهاور PptBank
صفحه 73:
صفحه 74:
صفحه 75:
صفحه 76:
صفحه 77:
۴۳۲۲ ۹ ۱ و
MR este SEE Pe
hee pe oe oe
gio fie
| RHEE
کاند لکیام انکهاور PptBank
صفحه 78:
1 11 ۳ عیبر کب |
صفحه 79:
صفحه 80:
Se Fa ae ee
crs 72
ا
fark
کاند لکیام انکهاور PptBank
صفحه 81:
() 82۲6 م2
Test error (no distortions)
1a
oe ~ 8. 9 5 1
~~ est error
(with distortions)
Training error (no distortions)
a ل
Training Set Size (x1000)
Fig. 6. Training and test errors of LeNet-5 achieved using training
sets of various sizes. This graph suggests that a larger training
set could improve the performance of LeNet-5. ‘The hollow square
show the test error when more training patterns are artificially
generated using random distortions. ‘The test patterns are not
distorted.
PptBi
صفحه 82:
(ه 3< 3 1- زو ان زم ون
تع له 3و يه زو قت تس دص
ژج تم ژد ح ژه زج تم مه
دی دی هم ژه زد زد
4 ون وعد تعر ثم ره تسر زّى
نه 3ه زد اه ثم تس زم زم
ددص زج زب داح مه
wd, هم زص
لح مه اه ام آد ده اه آه ام
t 1
كع لاعا لاط نان ج82 7118
صفحه 83:
A brute force approach
LeNet uses knowledge about the invariances to
design:
the network architecture
(or the weight constraints
( or the types of feature
But its much simpler to incorporate knowledge
1 Le by just creating extra training
jata:
1 for each training image, produce new training data by
applying all of the transformations we want to be
insensitive to (Le Net can benefit from this too)
Then train a large, dumb net on a fast computer.
1 This works surprisingly well if the transformations are
not too big (so do approximate normalization first).
صفحه 84:
tBank
king dumb backpropagation
really well for recognizing
Using the standard viewing transformations plus
local deformation fields to get LOTS of data.
0 Use a single hidden layer with very small initial
weights:
it needs to break symmetry very slowly to find a good
local minimum
O Use a more appropriate error measure for multi-
class categorization.
صفحه 85:
PptBank کاندژلگرلمیبنکهاور
Problems with squared
error
a) The squared error measure has some drawbacks
U If the desired output is 1 and the actual output is
0.00000001 there is almost no gradient for a logistic
unit to fix up the error.
0 If wevare trying to assign probabilities to class labels,
we/know that the outputs should sum to 1, but we are
d¢priving the network of this knowledge.
ere a different cost function that is more
propriate and works better?
Force the outputs to represent a probability
distribution across discrete alternatives.
صفحه 86:
- 0
(رز -) رز
1
OX
desired vohue
C=- ¥ ajlogy,
1
26 269۳
0 ره زر
OX
PptBank كاند لکرلمبانکهاور
Softmax
Phe pulpal cits use 0 aero
tortor: