صفحه 1:
سل کرو
a
پاییز۱۳۹۶
صفحه 2:
مقدمه
O خوشه بندی
boven 92,60
لس خوشه بندی فازی
ما مفاهیم لولیه۱۳۳
للا انواع كلاس بندىا
الا روا
1: ارزیابی برای انتخاب Sale Qa
منابع
صفحه 3:
لآ خوشه بندی یکی از بهترین روشهایی است که برای کار با داده ها ارائه شده
تج
ot هدک تقسیم داده به کروههای محتلف است
6(00«ساده ترین و متداولترین روش برپایه یادگیری نمونه است.
الس هدف ازهاتعداد همسایه ها در نظر گرفته شده است.
O همسایه ها برمبنای فواصل اقلیدسی استاندلرد تعیین می شوند.
صفحه 4:
O یکی از شاخه های یادگیری بدون نظارت می باشد.
سا فرآیند خودکاری است که در طی آن. نمونه ها یه دسته هایی که اعضای آن مشابه یکدیگرباشند
تقسیم می شوند.
لا خوشه مجموعه لی از اشياء می باشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاه موجود در
خوشه های دیگر غیر مشابه می باشند.
خوشه بندی نمونه های
ورودی
صفحه 5:
هدف از خوشه بندی چیست؟
سا هدف تقسیم داده به گروههای مختلف است.
لا یافتن خوشه های مشابه از اشياء در بين نمونه هاى ورودى می باشد .
یکی از مسایل مهم در خوشه بندی انتخاب تعداد خوشه ها می باشد
صفحه 6:
الگوریتم ۲
۱- ایجاد مراکز اولیه خوشه ها از بین کلیه نقاط داده.
.محاسبه فاصله هر یک از نقاط داده ها تاهر یک از مراکز خوشه که در مرحله ۱ تعیین شده اند -۲
۳- تخصیص همه ی نقاط به یک مرکز خوشه.
«بسهینه سازیمرلکز اولیه در هر خوشه -۲)
بازگشت به مرحله ۲ -۵
صفحه 7:
اس و
:متال
ARO WORE ۱۲۴۱۲۵ محم
MA={E,9}, KE{F,10,0C,C0,90,44,e9}
0/20. 29
KA{C,9,F},KO=(40,08,C0,90,4,89}
4-6 620
Kd{E,9,F, 10}, KE=(0E,C0,90,4,E9}
280,28
ار ]
معا
+
صفحه 8:
الگوریتم خوشه بندی 7 میانگین:
مشابهللگوریتم » میانگین کلاسیک
سا تعداد خوشه ها (©) از قبل مشخص شده است.
تابع هدف این الگوریتم
J- Va =a “ان يد ا
i=l 1 is] kel
صفحه 9:
ل ا م
6
۱ Vk=1,...,n
ist
ار el
با استفاده از شرط des تابع هدف خواهیم داشت:
صفحه 10:
الگوریتم خوشه بندی 7آمیانگین: (ادامه)
نمراحل الگوریتم
۱ مقدار دهی اولیه برای 6۰۲۳ و "لا. خوشه های اولیه حدس زده شوند.
۲ مراکز خوشه ها محاسبه شوند (محاسبه (IBV,
۳ محاسبه ماتریس تعلق از روی خوشه های محاسبه شده در ۲.
||ORG-Oll| < si ۲
الگوریتم خاتمه می یابد و در غیر اینصورت برو به مرحله ۲.
dO.
صفحه 11:
اس و
:متال
سس
| سم
توزیع یک یعدی نمونه ها
ID Gerabershap fiction?
خوشه بندی کلاسیک نمونه های ورودی
ad
صفحه 12:
:متال (ادامه)
اگر از خوشه بندی فازی استفاده کنیم خواهیم داشت:
fnembersiny pimezon) تا
صفحه 13:
الگوریتم خوشه بندی ۲7 میانگین:(ادامه)
نقاط قوت الگوریتم > میانگین فازی:
الس بدون نظارت بودن الگوریتم.
السآ همیشه همگرا می شود.
نقاط ضعف الگوریتم > میانگین فازی:
A زمان محاسبات زیاد است.
لا حساس به حدسهای اولیه میباشد و ممکن در مینیمم های محلی متوقف شود.
لت حساس به نويز ميباشد.
9
صفحه 14:
|
الگوریتم خوشه بندی ۶ میانگین برای داده های نویزی:
سا میزان تعلق بردار ویژگی (نمونه) ,26 بخوشه نویز بر طبق رابطه زیر تعریف شود:
u,=1- You, k=1...n
سا بدلیل تعریف خوشه نویز هر نمونه درجه تعلقی کوچک يا بزرگی به این خوشه خواهد داشت
و بنابراین مجموع درجه تعلقات نمونه ها به ۶ خوشه اولیه کمتر از ۱ خواهد بود.
Dd U,<1 ۶
ae
صفحه 15:
خوشه بندی ۲2 میانگین برای داده های نویزی:(ادامه)
تابع هدف:
JU Vi) =D te PK (+ ی 0 Ye)”
as
صفحه 16:
مفاهیم اولیه koro
اطلاعات مورد نیاز برای این روش :
* داده های مورد بررسی با هر تعداد شاخص ورودی و خروجی
هدف :
* یافتن بهترین کلاس برای یک داده به طوری که با اعضای آن کلاس کمترین فاصله را داشته باشد
qa
صفحه 17:
انواع دسته بندی ها:
رم
۴ ساخت مدل از نمونه های آموزشی قبل از مطمماعصل)
* درخت تصمیم گیری نمونه ای wager chisP ier jl ها
مرا
ذخیره سازی نمونه های آموزشی یدون ساخت مدل از آنها
* تعویق یادگیری تا زمان (heoPiraioa)
* _یادگیری برپایه نمونه های آموزشی جبها لحم معا )
۰ 1600 نمونه لعاز اصصدات برضا ذا
ar
صفحه 18:
Td
st Slo KOO:
تعیین پارامتر(1) تعداد نزدیکترین همسایه ها
محاسبه فاصله نمونه ورودی با تمامتمونه های آموزشی
* مرتب کردن نمونه های آموزشی براساس فاصله و انتخاب 6) همسایه نزدیک
انتخاب کلاسی که اکثریت را در همسایه های نزدیک دارد بعنوان تخمینی برای کلاس نمونه ورودی
de
صفحه 19:
تابع فاصله:
*_برای محاسبه فاصله می توان از تابع فاصله اقلیدسی استفاده کرد.
* فاصله اقلیدسی بین دو تاپل 60و 66 از رابطه زیر به دست می آید.
la) * 0-1 و («©::::: 6 KOH (KOU
dist(X1,X2) =
9
صفحه 20:
مثال:
* در یک بررسی, پرسش نامه ای برای دسته بندی کاغذها به دو دسته خوب و بد. بر اساس دو ویژگی مقاومت در برابر اسید و دوام
انجام شد. چهار نمونه ۷۵ در جدول زیر دیده می شود:
BCL = a مناوت دبای (Seconds) X2= yp Y= Classification
(kg/square meter)
7 1 Bad
1 4 Bad
3 4 Good
1 4 Good
90
صفحه 21:
منال(ادامه):
0 _ تعیین پارامتر )
فرض می کنیم 4629
۲ محاسبه فاصله نمونه ورودی با تمام نمونه های آموزشی
با درنظر گرفتن (۳,۷) بعنوان ورودی فاصله آن را با تمام نمونه های ۷ محاسبه می کنیم.
فاصله اقلیدسی با تموته (3:7) دوام < 252 مقاومت در پرابر اسید < 261
Came) (kg/square meter)
7 —3P +0 -7F =4
7)ليء -3(2 + )4-7(2 -5
)3-3(2 + )4-7(2 -3
40-37 +G—7 = V3
7
3
+} 4} a] اب
1
صفحه 22:
مثال(ادامه):
۳ مرتب کردن نموله های آموزشی بر لساس فاصله و انتخاب ۲) همسایه نزدیک
جزو ۳ هسایه . رتبه (فاصله فاصلهاقليدسي بانمونه (3,7) دوام < 22 مقاوت دربرایر > 261
نزديك fou الليدسي) a\(econds) —(kg/square meter)
بله ۳ 0-7-4 +2ة-7) 1 1
7
8 )7-3(2+)4-7-5 4
3 4 [o-3° +@-7) =3 ۱
4 )0-3(۳+04-7۳ 13 >
we] Ee] ۷
صفحه 23:
Td
منال(ادامه):
۴ کلاسی که اکثریت را در همسایه های نزدیک دارد بعنوان تخمینی برای کلاس نمونه ورودی بکارمی برد.
کلام جزو ۳ ره (قاصله فاصلهاتليدسىباتموته (327) =e لد وروم عع
Gael abe Gai سوم وقمممهع) سيد
Sop hae
هت
7 7 Ja 3027) 24 3 1 Bad
7 5 ))7-3(2+)4-7(2-5 1 = -
7 1 (a-3 + )4-7( =3 ۱ يله Gat
T 4 aay Good
])1-3( + )4-7( 23 x
صفحه 24:
خصوصيت Jie
بان انسوی
x puls ob SS
نویسنده. آقای ۷
سال توليد 1990
مدت .0 دقيقد
تعداد. بيشه ستاره 4
تعداد جايزه الملل 7
تعداد صحنه ها احسا: 2
تعداد صحته هاى اكشن 10
0
صفحه 25:
نمودارمثال دوم:
es
صفحه 26:
معیارهای ارزیابی برای انتخاب K
* میزان خطای رگرسیون
* ميزان خطا براساس اعتبارسنجى متقاطع (وصقهللس- و9 0)
* محاسبه ميزان خطا براساس روش 410
صفحه 27:
معیارهای ارزبابی برای انتخاب 1 : (ادامه)
* یک روش ارزیابی است روش
* مشخص می کند نتایج یک تحلیل آماری برروی یک مجموعه داده تا چه اندازهقابل تعمیم
ومستقل از داده های آموزشی است.
* در کاربردهای پیش بینی مورد استفاده قرارمیگیرد تا مشخص شود مدل مورد نظر تا چه اندازه در عمل مفید خواهد بود
روش 02۳04
اين روش برای محاسبه میزان خطا در سوه استفاده می شود.
* در این نوع اعتبارسنجی داده ها به زیرمجموعه افراز می شوند.
* هربار یکی بیلی اعتبارسنجی و 1-6 دیگر برای آموزش بکار می رون
* اين روال ۴ بار تکرار می شود و همه داده ها یکبار برای آموزش ویک بار برای اعتبارسنجی بکار می روند.
* در نهایت میانگین نتیجه این 6 بار اعتبارسنجی به عنوان یک تخمین نهایی در نظر گرفته می شود.
صفحه 28:
!اد سس
الگوربتم 0 برای تابع هدف گسسته
* برای یک تابع هدف گسسته الگوریتم 60 بصورت زیر است:
الگوربتم بادگیری:
* هر مثال آموزشی <<( ,* کرا به لیست ۳۳۵۲۳۳۶ _ ۳۵۳ اضافه کنید.
الگوریتم دسته بندی:
* برای نمونه مورد بررسی67::
۱ نزدیک ترین نمونه هائی از عمجت _ بات به آنرا با >< ... 1< نمايش دهيد.
۲ مقدار زیر را محاسبه نموده و برگردانید.
where)(ab) =1 162 -
7000) — argma6(u £00) 0 clhcol
vev =l 5
99
صفحه 29:
!اد سس
الكوريتم (1(0<! براى تابع هدف پیوسته
* الكوريتم (100<ارا مى توان به سادكى براى توابع هدف بيوسته نيز استفاده نمود.
* دراين حالت بجاى انتخاب متداول ترين مقدار موجود در همسايكى مقدار ميانكين ؟! مثال همسايه محاسبه ميشود.
* در نتيجه الكوريتم از رابطه زير استفاده ميشود:
35
> fx)
72 ia
(a) — مس
صفحه 30:
OO لس( ررسسیمح()
* معمولابا فاصله نمونه ها رابطه معکوس دارد.
السادر حالت گسسته:
k 7
f(x) - argmaX wi(v, f(x)) wherey = ———,
0 005 2 ۷
الحادر حالت پیوسته : ۳
w f(x) > 1
یروس تب a)
Sw A x, x)
* این انتخاب باعث کند شدن عمل دسته بندی خواهد شد. &
50
صفحه 31:
ویژگیهای یادگیری نمونه:
مزایا:
میتواند توأبع پیچیده را مدل کند
* اطلاعات موجود در مثالهای آموزشی از بين نميرود
* ميتواند از نمایش سمبلیک نمونه ها استفاده کند
* تعیین یک تابع فاصله مناسب مشکل است
گیهای نامرتبط تاثیر منفی در معیار فاصله دارند
* ممکن است به حافظه بسیار زیادی نیاز داشته باشد
صفحه 32:
wlio:
*Darig Rashid: “Cheterter
)لس ان سای راهم | 660 ام ال ماج تسس توا
وا ۵ :6 ا) - )و of (Cmteke Oscovery و۳۰ سرا ۵ ‘Once
|
اس نیوا *