صفحه 1:
SARE,
ماشین بردارپشتیبان
SVM
Fal
صفحه 2:
فهرست
*
لسالس هاس سان ساس هاي
*
مقدمه
آشنایی با مفهوم دسته بندی داده ها
بردار های پشتیبان و 5۷۲0
بردار پشتیبان
چگونگی ایجاد یک ماشین بر مبنای بردار پشتیبان
توزیع غير خطی و کاربرد 5۷/۲۳
نگاهی دقیق تر به فرایند ساخت 5۷۳
خط یا ابرصفحه ی جداکننده
جدلسازی دسته ها در SVM
حداکثر حاشیه
0 در عمل
نقاط ضعف و قوت SVM
تسن يايانى
صفحه 3:
* 5۷ دسته ب ندیک ننده لعلستکه جزو شاخه ۳۵6۲۵۵5 6۲۳6۱
در یادگیریماشین ی حسوبمیشود.
* 9۷۲ در سلل۱۹۹ توسط ۷۵0۱۱6 معرفیشده و بر پایهی
theory ۱6۵۲۳۱۱۱9۵ 51ات5 بت گردیدم لست
* هدف این دسته الگوریتم ها تشخیص و متمایز کردن الگوهای پیچیده در
داده هاست(از طریق کلاسترینگدسته بندیءرنکینگ,پاکسازی و غیره)
صفحه 4:
؟ یازا ریت هیرلیج در حوندی دسته بدی
* متالی از الگوریتم های دسته بندی
(ems) ی
۳
صفحه 5:
بردارهای پشتیبان و 5۷۲۲
پردارهای پشتیبان.مجموعه ای از نقاط Gaul] clad jo داده ها جهت مشخص کردن
مرز دسته ها
۰
تعیین مرزبندی و دسته بندی داده ها توسط بردار های پشتیبان
* تغییر خروجی در صورت تشکیل یک خط توسط بردارهای پشتیبان در فضای دو
بعدی.یک صفحه در فضای سه بعدی و ابر صفحه در فضای (آبعدی
تغییر دسته بندی در صورت جابجایی یکی از آنها
تعیین بهترین دسته بندی و تفکیک بین داده ها با معیار قرار دادن بردارهای
پشتیبان(یک دسته بند یا مرزاتوسط 5۷۲۲
533
اس بودن SVM به نقاط داده هاى موجود در بردارهاى يشتيبان
ف بهترین مرز در بین داده هائوسط SVM
صفحه 6:
بردار پشتیبان
ey نزدیکترین داده های آموزشی به ابر صفحه های جدا کننده بردار پشتیبان
نامیده میشوند
xe
صفحه 7:
' چگونگی ایجاد یک ماشین بر مبنای بردار
a
های موجود در مثا aa
ر مثال قبل سه مرز بندی زیر را
زیر را مشخص
Hair Length (ems)
صفحه 8:
چگونگی ایجاد یک ماشین بر مبنای بردار
پشتیبان(ادامه)
* سوال:بهترين مرزبندی در مثال قبل کدام است؟
* ساخت یک دسته بند بهینه»ءمحاسبه ی فاصله ی مرزهای به دست
آمده با بردارهای پشتیبان هر دسته
* انتخاب مرز در صورت داشتن بیشترین فاصله از هر دسته
* قابل پیاده سازی با انجام محاسبات ریاضی غیر پیچیده جهت انتخاب
تعیین مرز
صفحه 9:
توزیع غیرخطی داده ها و کاربرد 5۷۲۲۱
58 ایجاد بهترین ماشین برای تفکیک داده ها وتعیین دسته ی یک رکورد داده
در صورت قابل تفكيك بودن داده ها به صورت خطى
* سوال:اكر داده ها به صورت غيرخطى توزيع شده باشند جه بايد كرد؟
a oa
20. 40 60 80 100 120 140 160 180 200
Height (ems)
HairLength (cms)
صفحه 10:
توزيع غیرخطی داده ها و كاربرد 51/171
g ۳ هاده ها به يك فضاى ديكر توسط يك تابع رياضى
(kernel function)
* شرط تعيين 51/117 تفکیک پذیری داده ها در نگاشت تابع
* تاثیر در عملکرد 5۷۲۲۱ در صورت درست تعیین شدن تابع نگاشت
* با فرض یافتن تابع تبدیل برای مثال قبل فضای داده ی ما به این حالت خواهد
بود:
صفحه 11:
توزیع غیرخطی داده ها 5 5 SVMo
kernel) ات ها به یک فضای دیگر توسط یک تابع ریاضی y
ion
دل شرط تعيين 7 تفکیک پذیری داده ها در نگاشت تابع
اثیر در عملکرد svm در صورت درست تعيين شدن تابع نكاشت
* با فرض يافتن تابع تبديا , براب, مثاا , قبا , فضای داده ی ما به اب:, حالت خواهد بود:
airength transformed ems}
20 40 60 80 100 120 140 160 180 200 220 240 260 280
Height transformed (ems)
11
صفحه 12:
نگاهی دقیق تر به فرایند ساخت SVM
* انتقال داده ها به فضای جدید توسط 5۷/۲۲۱ با توجه به دسته های از پیش
تعیین شده
* تفکیک پذیری و دسته بندی داده ها به صورت خطی (ابر صفحه)
* یافتن معادله ی خطی که بیشترین فاصله را بین دو دسته ایجاد میکند از طریق
یافتن خطوط پشتیبان(صفحات پشتیبان در فضای چند بعدی)
۰
0
در شكل اسلايد بعد داده ها در دو دسته ى آبى و قرمز نمايش داده شده اند
* خطوط نقطه چین بردارهای پشتیبان متناظر با هر دسته را نمايش مى دهند
12
صفحه 13:
" نگاهی دقیق تر به فرایند ساخت 9۷۲۲۱ (ادامه)
* این خطوط با دایره های دوخط مشخص شده اند
** خط ممتد بین» همان SVM است
** بردارهای پشتیبان هم هرکدام دارای یک فرمول مشخص می باشند که
خط مرزی هر دسته را توصیف می کند
13
صفحه 14:
" نگاهی دقیق تر به فرایند ساخت ۲۲۱ 9۷ (ادامه)
Support Vector Machine
linearly separable data +
۰ |
14
صفحه 15:
خط يا ابر صفحه جدا کننده
xe
هدف: پیدا کردن بهترین خط ( ابر صفحه) که دو دسته را از هم جدا
کند. در حالت دو بعدی معادله این خط بصورت زير است:
wx, + wX,+b=0
قحالت © بعدى خواهيم داشت: a
ee w.x+b=0
15
صفحه 16:
جدا سازءدسته ها 5۱۷/۷
* دو صفحه مرزی بسازید :
4
* رسم دو صفحه ی مرزی موازی با صفحه ی دسته بندی
۳ 8 0-0
* ايجاد بيشترين فاصله ى ممكن بين دو صفحه ى مرزی
* صفحه دسته بندى كه بيشترين فاصله را از صفحات مرزى Noe Gayle abl andl
کننده خواهد بود. wx+ b=0
5 ۱
صفحه 17:
حداکتر حاشیه
* بر طبق قضیه ای در تئوری یادگیری اگر مثالهای آموزشی بدرستی
دسته بندی شده باشند. از بین جداسازهای خطیء al جداسازی که
حاشیه داده های آموزشی را حداکثر میکند خطای تعمیم را حداقل
خواهد کرد.
wx+b=0
ao‘
17
صفحه 18:
چرا حداکثر حاشیه؟
* به نظر میرسد که مطمئن ترین راه باشد.
* تئوری هائی برمبنای 01۳۳6105101 ۷ وجود دارد که مفید بودن
آنرا اثبات میکند,
* بطور تجربی این روش خیلی خوب جواب داده است.
18
صفحه 19:
ماشین بردار پشتیبا ن در عمل
® برای استفاده از Svm در مورد د داده های واقعی چندین نکته باید رعایت
گردد:
. پالایش داده ها(نقاط پرت.داده های ناموجود و ..)
اا. عددی و نرمال کردن داده ها
ااا امتحان کرنل های مختلف با توجه به داده های اموزش
۷ اندازه گیری دقت 5۷۲ با توجه به مجموعه داده های آموزشی و دسته
\ بندی داده های آنها
۷ تغییر پارامترهای توابع تبدیل در صورت نیاز برای یافتن جواب های بهتر
19
صفحه 20:
نقاط ضعف و قوت SVM
* این نوع الگوریتم ها محدودیت ذاتی دارند
* استفاده از حافظه و زمان زیاد
* ناسازگاری داده های گسسته و غیر عددی با این روش
* 9۷ ها دارلیی asf Las 5( ن_ظریمنسجم هستند
* سراسری و پکتابودن جواب های تولید شده توسط آنها
* به متداول ترین تکنیک های پیش بینی در داده کاوی تبدیل شده اند
20
صفحه 21:
۲ هاا لكوييتمهاى سير قديتمندودر دسته بندیو تفکیکدادم
جنگل صادفی تلفیقش وند
این روش برای جاهایی که با دقت بسیار بالا نیاز به ماشین داده ها داریم
بهاقلرظ انتکه توانع نگاشت .را به,مرستی اتقطاب: کسیم بسیاز خوپ عهل
می کند.
21
صفحه 22:
۱ منبع
* مقاله ی سایت آنالیتیکز ویدیا
* دو بخش پایانی از کتاب داده کاوی پیشرفته ی مفاهیم و الگوریتم
دکتر شهرابی
Matlabhome.ir *
22
صفحه 23:
حال با مثا الكو 0 در متلب اشنا
ل با مثالی با الگوریتم در متلب بيشتر اشن سويم
یب می شویم.
23