صفحه 1:
صفحه 2:
۳ اب Seen
۳۳۳۳ ان(
FSU WIE Ot ECBO Rear SUR EI ا ل EG]
Bere EW CPD TTIEC ON NER PCI CS KNIT CID 9
آناليز كلاستر به لحاظ هدفش كه شامل Gala می باشد. با آنالیز
فاكتور قابل مقايسه است. اما آناليز كلاستر با آناليز فكتور متفاوت است
جرا كه اناليز كلاستر» .- ١ را كروه بندى مى كند در حالى كه آناليز
or) را گروه بندی می نماید.
صفحه 3:
کلاسترهای نهایی اشیاء. بايد همگنی داخلی ( دا
ناهمگنی خارجی ( بین کلاسترها ) بالا داشته باشند.
آنالیز کلاستر تحت عناوین آنالیز ۵ , ساختمان کو
کلاسه بندی و طبقه بندی عددی نامیده می شود.
تشکیل کلاسترها بدون توجه به صحت ساختار داده
وابستگی شدید جواب به متغیرهایی که به عنوان مب
تشابة انتفاده مى ies
اضافه كردن يا حذف نمودن متغيرهاى مربوطه»
اساسى بر جواب داشته باشد
صفحه 4:
کرد هی آناليز كلاستر
کلاسبندی ساختار بازار
آنالیز تفاوتها وشباهتهای محصولات Bas
ارزیابی نحوه عملکرد شرکت
ارزیابی مشتریان بانکها ازلحاظ ریسک |
صفحه 5:
صفحه 6:
رار
BC ا
طراحى محصولات يا برنامه ريزى رقابت هاى بازار » وقتى كه
افراد در بازار هدف در مورد نيازها و رفتارهاى عكس العملى شان
(متفابلشان) با هم متفاوت هستند » توسط بخش بندى بازيار صورت
می پذیرد .
صفحه 7:
صفحه 8:
6 هاوكلاستر -
ميانكين ترجيحات دانشجويان در رابطه باانواع آبجو
7.4
53 59
46 4.3
7 4.3
5.9 6.2
4.5 6.3
68
4.7 6.2
6.1 6.3
7.4
n=20 n=12
صفحه 9:
انتخاب متغبرهای زا ۳
صفحه 10:
aa ۱۳ NC pcre ieeel pe
مرحله سوم :فرضیات آنالیز کلاستر
مرحله چهارم :استخراج کلاسترها وارز
مرحله پنجم : تفسیر کلاستر ها
صفحه 11:
مرحله اول : اهداف آنالیز کلاستر
bog S|
7 توصیف گروه های تجریبی
صفحه 12:
نقش ملاحظات تئوريك در تعيين متغيرهاى كلاسترها
Rep Pe Ce Cpe bf ens ا ل ا اك ا
RRB Rpres ODI MELE SNIPES SE ere eyo] ا
ناتوانی از تشخیص متغیرهای مناسب ونامناسب
وابستگی شدید جواب نهایی به متغیرهای نامناسب
صفحه 13:
FP بر er yer ee eh ee
4یا می توان جواب های بد(جای) را شناسایی کرد؟
©.- شباهتهاولشیاء » جكونه بايد لندازم كيروشود ؟
ا 1 ب
#۶ آنالیز کلاستر علم است یا فن؟
صفحه 14:
٠. ها 0
ON ad مىتولنند موجب:
SCC IOR Ip CUTE PENUTR KE ORCI COPS PPT Yer KY EG
SS SEE CSNE eer Oe ICES NS cee)
ل ET Teen TATE SIE ener a
| DIDI a
بهترين روش براى جستجوى -#ثادس فراهم آوردن يك نمودار تصويرى
Ee COM arn cd
صفحه 15:
صفحه 16:
شاخص 2-0
شاخص هاي فاصله اي
شاخص های تطایق
صفحه 17:
ALEC UP EB STEED ESM ل get cert Bere re)
اندازه گيري مي شود.
معكوس كردن ماتريس شي- متغير
aod ا ا اا ل ا م
۳
سا 02225 5
000 Byer ws
صفحه 18:
۳ ev ST Oe tr)
شاخص عدم تشابه 50 Te Se ent
Onkowsh p- (orb, ( Dette
QOukokuwbis
صفحه 19:
aa
Minkowski p- ( or L, ) Metri
صفحه 20:
* فاصله اقلید سس
=
fi | 12 Xn ۳ م2 "و7 ١
صفحه 21:
صفحه 22:
for ewe CR eS Rese eee EB) ا ا ل لت
0
ا ا ا الت لك ل ا الك
شمرده مي شوند.
شاخص تشابه با شمردن تعداد دفعاتي که هر دوشی داراي يك مشخصه
هستند یا هر دو آن مشخصه را ندارند و تقسیم آن بر کل تعداد مشخصه ها
به دست مي آيد.
مقادیر بزرگ ترء تشابه بیشتر شاخص تشابه
صفحه 23:
On ee ee Or ا Ol eee cm
6ت ESB 22 ED EET OER (ne
آيا از نوع «إم() هستند؟
آیا لس
آيا نوشابه رزيمي است؟
Oe Or ee iD el است؟
صفحه 24:
‘Manufactured
By Coke
1
0
1
Caffeine-
Free Diet
Coke
Diet Coke
Caffeine
Cola Flavor
Coke
Pepsi
Diet
Coke
Caffeine-
Free Diet
Coke
Coke
Pepsi
Diet Coke
Caffeine-Free
Diet Coke
صفحه 25:
براي قرار دادن اشياء مشابه در يك كلاستر بايد جه رويه اي
مورد استفاده قرار گیرد؟
cla Us 2
روش های غیر سلسله مراتبی
رويه هاى كلاستر كردن فازى و داراى هميوشانى
مدل هاى تركيبى و...
صفحه 26:
رويه هاي سلسله مراتبي شامل ايجاد يك سلسله مراتب از ساختار درختي
مي باشد.
05007 ا ا ا Pv Oo e Sy
قبلى در نتايج مرحله بعدي جاي مي كيرد و شكلى شبيه به يك درخت را
ايجاد مي كند.
5
صفحه 27:
صفحه 28:
0 peer e Wer pye)
استفاده قرار مي كيرند» عبارتند ان:
۳
ارتباط کامل
Bees
روش وارد
Orn ari OED)
صفحه 29:
ee COATS EONS ECD ne reYS)
فاصله بين هر دو كلاسترء كوتاهترين فاصله از هر نقطه در
يك كلاستر تا هر نقطه در كلاستر ديكر مي باشد.
Se ا ل ا Is es)
مي شوند.
صفحه 30:
كام صفر: با هر شي در يك كلاستر جداكانه» شروع مي كنيم.
لس ا ل ا د ۲("
ا ا ل ل |
00 ا ا ال 2 ee ETE D Cee Seat (IL
نزدیکترین کلاستر ها را - و مي نامیم.
كام 8: كلشتر اهاي قبل را با هم تركيب مي كنيم تا يك
كلاستر جديد تشكيل دهند.
صفحه 31:
ea © FACS ۱ و همه کلاستر هاي باقیمانده»
را محاسبه مي کنیم.
كام “6 : كلاستر جديد را اضافه كرده و كلاسترهاي قبل را
برمي داریم.
گام 6: به کام 4 بر مي گردیم و ادامه مي دهیم تا يك کلاستر
بافي بعاند.
صفحه 32:
1 Pree rh ep Pry
کلاستر بر. مبناي حداکثر مي باشد.
رویکرد دورترین همسایه نیز نامیده مي شود.
نوشتن كام دوم به صورت زير مي باشد:
صفحه 33:
معيار كلاستر؛ فاصله ميانكين همه مشاهده هاي انفرادي در
يك كلاستر تا مشاهدات انفرادي در كلاستر ديكر است.
اين رويكرد مي تواند» مصالحه اي بين دو روش قبلي باشد.
صفحه 34:
a شي
آنها مي باشد.
2201000000 eo rier ee ora
به جای تعریف فاصله بین دو کلاستر به صورت میانگین فاصله بین همه
BY Kone ea eem een eens Cri Eso Peers
ا ا ا 0
صفحه 35:
صفحه 36:
بر خلاف روش هاى قبل؛ !-ع()كه كاهي روش حداقل
واريانس نيز ناميده مي شودء در كام يك» استراتزي متفاوتي را
اتخاذ مي كند .
به جاي تلفيق نزديكترين كلاسترها با هم به دنبال تلفيق دو
كلاستري است كه تركيبشان منجر به ترين ج ات
0
صفحه 37:
یک محقق بازاریابی می خواهد بخش های بازار را در یک
لاس ص ا 059555500270220
فروشكاه تعيين نمايد.
(0 PeR Qe ECT ey selec ty os
در شاخص وفاداری 00 ( وفاداری به فروشگاه ) و 6) ( وفادای
به مارك ) براى هر ياسخ دهنده در يك مقياس از 0 تا 000 اندازه
0 0
صفحه 38:
مقادیر دادء
B
4
5
صفحه 39:
* چگونه شباهت را اندازه گیری مى کنیم؟
صفحه 40:
( مانریس مجاورت فاصله های قلیدسی پین مشاهده ها )
2 =
2/236 3
3 5
3/606 5
1/414
3/162
2
صفحه 41:
( فرأيند كلاسثر كردن سلسله مرائين تراكمى )
جواب کلاستر فرآیندتراکبی
cle ate : ببس اصله ین
©
(بلگین اصله ین . مشاهدات كلاستر
a کلامترها 09 شاهدات ie
کلاسترها ) de
0 ۲ ۴۸6 ۸()8)6۱۱۵)8) جواب اولبه
144 1 (A) (B)(C)(D)(E-F)(G) 6
(A) (B) (C)(D) (E-F-G) 5
(A) (B) (C-D)(E-F-G) 4
(A)(BCD)(EFG) 3
2236 (A) (BC-DE-FG) 2
1
3.162 (A-B-C-D-E-F-G)
صفحه 42:
دوعوم ]
صفحه 43:
صفحه 44:
صفحه 45:
وزن دهی مطلق متغیرها بر اساس پر ا؟ ندگی نسب
فاصله ای اتفاق می افتد.
صفحه 46:
کلاستر است.
تغيير در مقياس ها تغييرى در الدراف ۱۲
تصميم براى استاندارد كردن اثرات مفهومى وتجربى ذار
صفحه 47:
صفحه 48:
aa
Mare teeta
در آنالیز کلاستر هر متغیر نسبت به س
یکسان وزن دهی می شود.
صفحه 49:
نخست محقق بايد الكوريتم كلاستر كردن
تعداد كلاسترهايى كه بايد تشكيل شود تصميم
انتخاب الكوريتم كلاستر كردن وتعداد كلاستره
آنها نيز تاثير مهمى دارد.
صفحه 50:
00 = ney و1
صفحه 51:
wt کت
نتايج كمتر تحت تأثیر ایس ها
متغیرهای نامناسب قرار میگیرد.
صفحه 52:
صفحه 53:
افزايش زیاد در متوسط فاصله
قوانین آماربی ویا آزمون های آمارا
اونا وبا نرخ احتمال است.
صفحه 54:
صفحه 55:
صفحه 56:
" بررسی متغیرهایی که در تشکیل کلاستر ها ل
می یابد(مثال سن)
صفحه 57:
یک IS
عضویت در
توانند
سر ۳
صفحه 58:
استاد راهنما :دکتر شهرابی
ارائه دهندگان :شبنم حاجی رمضان عالقه بند
وحید روشنایی
پاییز 86
آنالیز کالستر ،افراد یا اشیاء را در کالستر ها به گونه ای گروه بندی می
کند که اشیاء یک کالستر حداکثر شباهت را با هم و حداکثر تفاوت را با
اشیاء سایر کالسترها داشته باشند .هدف ،حداکثر کردن همگنی در یک
کالستر و حداکثر نمودن ناهمگنی بین کالسترهاست .
آنالیز کالستر به لحاظ هدفش که شامل ارزیابی ساختار می باشد ،با آنالیز
فاکتور قابل مقایسه است .اما آنالیز کالستر با آنالیز فکتور متفاوت است
چرا که آنالیز کالستر ،اشیاء را گروه بندی می کند در حالی که آنالیز
فکتور ،متغیرها را گروه بندی می نماید.
نام گروهی از تکنیک های چند متغیره که هدف اولیه آنها گروه بندی
اشیاء بر اساس معیارهای از پیش تعیین شده است .
کالسترهای نهایی اشیاء ،باید همگنی داخلی ( داخل کالسترها ) باال و
ناهمگنی خارجی ( بین کالسترها ) باال داشته باشند.
آنالیز کالستر تحت عناوین آنالیز ، Qساختمان گونه شناسی ،انالیز
کالسه بندی و طبقه بندی عددی نامیده می شود.
تشکیل کالسترها بدون توجه به صحت ساختار داده
وابستگی شدید جواب به متغیرهایی که به عنوان مبنایی برای شاخص
تشابه استفاده می شوند.
اضافه کردن یا حذف نمودن متغیرهای مربوطه ،می تواندتاثیر
اساسی بر جواب داشته باشد
زیست شناسی
کالسبندی اشیاء
کالسبندی ساختار بازار
آنالیز تفاوتها وشباهتهای محصوالت جدید
ارزیابی نحوه عملکرد شرکت
ارزیابی مشتریان بانکها ازلحاظ ریسک اعتباری
هدف اول :تباین (ناهمگنی) در داده ها
تشکیل کالسترهایی كه واریانس داخل گروه ها به صورت قابل مالحظه ای كوچك تر
از واریانس كلی در مجموعه كامل داده باشد.
هدف دوم :یافتن Modalityطبیعی داده ها
آنالیز كالستر برای تعیین اینكه داده شامل زیر مجموعه هایی همگن از مشاهدات
است ،مورد استفاده قرار می گیرد.
تعریف :تقسیم بندی بازار به گروه های کوچکتری که همگن تر
.هستند
طراحی محصوالت یا برنامه ریزی رقابت های بازار ،وقتی که
افراد در بازار هدف در مورد نیازها و رفتارهای عکس العملی شان
(متقابلشان) با هم متفاوت هستند ،توسط بخش بندی بازار صورت
می پذیرد .
Anchore
Steam
Bass
Ale
Beck 's
Corona
Gordon Biersch
Guinness
Heineken
Pete 's
Wicked Ale
Sam
Adams
Sierra
Nevada
S001
5
9
7
1
7
6
6
5
9
5
S008
7
5
6
8
8
4
8
8
7
7
S015
7
7
5
6
6
1
8
4
7
5
S022
7
7
5
2
5
8
4
6
8
9
S029
9
7
3
1
6
8
2
7
6
8
S036
7
6
4
3
7
6
6
5
4
9
S043
5
5
5
6
6
4
7
5
5
6
S050
5
3
1
5
5
5
3
5
5
9
9
3
2
6
4
6
1
5
3
6
2
6
6
5
6
4
8
4
4
3
S071
7
7
7
5
7
8
6
7
7
8
S078
8
3
3
9
9
2
1
9
7
8
S085
6
5
3
7
6
5
8
6
7
5
S092
5
6
3
8
6
7
6
7
6
7
S099
4
7
2
8
5
9
8
3
8
8
S106
3
3
4
5
6
5
9
7
5
5
S113
2
4
5
7
6
6
8
1
7
4
S120
9
3
7
4
2
4
6
3
8
6
S127
5
3
4
7
7
7
6
6
6
6
S134
2
4
4
8
5
5
5
4
6
6
S141
5
7
6
7
5
8
8
7
5
7
S148
8
9
6
7
7
8
6
8
8
8
S162
5
6
6
7
5
3
7
3
4
3
S169
5
5
6
7
7
4
6
3
7
6
S176
5
5
7
8
7
6
7
5
4
7
S183
3
5
4
7
3
1
2
6
6
5
S190
4
3
6
8
6
1
8
2
7
7
S197
3
8
4
8
6
2
8
4
6
1
S204
3
5
1
5
5
3
4
6
7
5
S211
3
8
5
8
7
5
5
3
7
8
S218
8
8
5
7
9
9
7
7
6
8
S057
S064
= هایك السترProfile
میانگین ترجیحات دانشجویان در رابطه باانواع آبجو
Profile هایك الستر
Anchore Steam
4.2
7.4
Bass Ale
5.3
5.9
Beck 's
4.6
4.3
Corona
7
4.3
Gordon - Biersch
5.9
6.2
Guinness
4.5
6.3
Heineken
6.8
4.2
Pete 's Wicked Ale
4.7
6.2
Sam Adams
6.1
6.3
Sierra Nevada
5.5
7.4
n=20
n=12
تاثیر تعیین صحیح متغیرها بر جواب
نحوه تعیین متغیرها
الزامات تعیین متغیرها
تکنیک آنالیز کالستر ،ابزاری جهت تشخیص متغیرهای مناسب از
.متغیرهای نامناسب ندارد
مرحله اول :اهداف آنالیز کالستر
مرحله دوم :طرح تحقیق در آنالیز کالستر
مرحله سوم :فرضیات آنالیز کالستر
مرحله چهارم :استخراج کالسترها وارزیابی تناسب کلی
مرحله پنجم :تفسیر کالسترها
مرحله ششم :اعتبار سنجی و profileکردن کالسترها
در تشکیل گروه های همگن به سه هدف زیر رسیده ایم :
توصیف گروه های تجربی
ساده سازی داده
تعیین روابط
نقش مالحظات تئوریک در تعیین متغیرهای کالسترها
دودسته از متغیرها قابل استفاده هستند -1:بتوانند اشیایی که کالستر می شوند
.را تعیین مشخصه نمایند -2با اهداف آنالیز کالستر مرتبط باشند
ناتوانی از تشخیص متغیرهای مناسب ونامناسب
وابستگی شدید جواب نهایی به متغیرهای نامناسب
:بعد از شناسائی اهداف و انتخاب متغیرها ،پاسخ به سه پرسش زیر الزامی است
-1آیا می توان جواب های بد( )Outlierرا شناسایی کرد؟
ش باهتهایاشیاء ،چگونه ب اید اندازه گ یریش ود ؟ 2-
آیا داده ب اید استاندارد ش ود ؟ 3-
آنالیز کالستر علم است یا فن؟
Outlireها میت وانند موجب:
-1مشاهدات گمراه کننده ای که نماینده جمعیت کلی نیستند.
undersampling -2از گروه های واقعی در جامعه شوند که منجر به
underrpresentationگروه های نمونه می شود و در هر دو مورد ،
outlireساختار را بد شکل می دهد .
بهترین روش برای جستجوی outlierفراهم آوردن یک نمودار تصویری
profileمتغیرها می باشد.
:انواع شاخص های تشابه
شاخص هاي همبستگي
شاخص هاي فاصله اي
شاخص های تطابق
شاخ ص های همبس تگی و فاص له ای نیازمن د داده متریک ( عددی )
هستند ،در حالی که شاخص های تطابق نیازمند داده غیر عددی است.
:شاخص های همبستگی
• ضريب همبس تگي بين جف ت اشياء ،ک ه روي متغيرهاي مختل ف
اندازه گيري مي شود.
• معکوس کردن ماتريس شي -متغير
• س تون ه ا اشياء را نمايش م ي ده د و س طرها نشان دهنده متغيره ا
هستند.
• ضريب همبستگي بين دو ستون از اعداد ،همبستگي (يا تشابه) بین
دو شی را نشان می دهد.
:شاخص های فاصله ای
• معمول ترین شاخص های تشابه
• مقادیر بزرگ تر ،همسانی کمتر
Minkowski p- ( or Lp ) Metric
Mahalanobis
شاخص عدم تشابه
Minkowski p- ( or Lp ) Metri
dij ( p) ik jk
k
1
p
فاصله اقليدسي
2
dij ik jk
k
1
2
city – block
dij (1) ik jk
k
sup-metric
dij () max( i1 j 2 , i2 j 2 ,... ip jp )
Mahalanobis
.• این شاخص براي كواريانس تنظيم شده است
Dij
2
i
j
i
j
:شاخص های تطابق
• رویكرد معمول برای داده هایی با مقیاس nominalبر مبنای جور بودن
مشخصه ها می باشد.
• دو profileبر اساس تعداد مواردي كه مشخصه هاي يكساني دارند ،مشابه
شمرده مي شوند.
• شاخص تشابه با شمردن تعداد دفعاتي كه هر دوشی داراي يك مشخصه
هستند يا هر دو آن مشخصه را ندارند و تقسيم آن بر كل تعداد مشخصه ها
به دست مي آيد.
• مقادیر بزرگ تر ،تشابه بیشتر
شاخص تشابه
• 4نوشيدن ي Coke، Pepsi، Diet Cokeو Caffeine-
،Freeبر روي چهار مشخصه ارزيابي
oآيا از نوع Colaهستند؟
oآيا Caffeineدارد؟
oآيا نوشابه رژيمي است؟
oآيا از شاخه Coca-Colaاست؟
شده اند.
الگوريتم هاي گروه بندي
• براي قرار دادن اشياء مشاب ه در يک کالس تر بايد چ ه رويه اي
مورد استفاده قرار گيرد؟
روش های سلسله مراتبی
روش های غیر سلسله مراتبی
رویه های كالستر كردن فازی و دارای همپوشانی
مدل های تركیبی و...
رويه هاي کالستر سلسله مراتبي
• رويه هاي سلسله مراتبي شامل ايجاد يک سلسله مراتب از ساختار درختي
مي باشد.
• يک مشخصه مهم از رويه هاي سلسله مراتبي اين است که نتايج مرحله
قبلی در نتايج مرحله بعدي جاي مي گيرد و شکلی شبيه به يک درخت را
ايجاد مي کند.
تراکمي
تقسيم شونده
واریانس بین کالسترها
واریانس داخل کالسترها
• الگوريتم های سلسله مراتبي که براي توسعه کالسترها مورد
استفاده قرار مي گيرند ،عبارتند از:
ارتباط تکي
ارتباط کامل
ارتباط متوسط
روش وارد
روش Centroid.
:ارتباط تکی
• رويه ارتباط تکي بر مبناي حداقل فاصله مي باشد.
• فاصله بين هر دو کالستر ،کوتاهترين فاصله از هر نقطه در
يک کالستر تا هر نقطه در کالستر ديگر مي باشد.
• در هر دو مرحله دو کالستر با کوتاهترين فاصله با هم ترکيب
مي شوند.
:گام های ارتباط تکی
• گام صفر :با هر شي در يك كالستر جداگانه ،شروع مي كنيم.
( nكالستر ،هر يك داراي يك شي) .در اين گام اوليه ،فاصله بين
دو كالستر ،فاصله بين هر دو شي آنها مي باشد.
• گام : 1كوچكترين فاص له بين ه ر دو كالس تر را مي يابيم.
نزديكترين كالستر ها را ciو c jمي ناميم.
• گام : 2كالس تر هاي قب ل را با ه م تركيب مي كنيم تا يك
كالستر جديد
cnt
تشكيل دهند.
:گام های ارتباط تکی
• گام : 3فاصه بين كالستر جديد ،و همه كالستر هاي باقيمانده،
را محاسبه مي كنيم.
dcntck mindcick , dcjck
• گام : 4كالس تر جديد را اضاف ه كرده و كالس ترهاي قبل را
برمي داريم.
• گام : 5به كام 1بر مي گرديم و ادامه مي دهيم تا يك كالستر
باقي بماند.
:ارتباط کامل
• رويه ارتباط کامل مشابه ارتباط تکي است به جز اينکه معيار
کالستر بر مبناي حداکثر مي باشد.
• رويکرد دورترين همسايه نيز ناميده مي شود.
• نوشتن گام دوم به صورت زير مي باشد:
dcn tck maxdcick , dcjck
:ارتباط متوسط
• معيار کالس تر ،فاصله ميانگين همه مشاهده هاي انفرادي در
يک کالستر تا مشاهدات انفرادي در کالستر ديگر است.
• اين رويكرد مي تواند ،مصالحه اي بين دو روش قبلي باشد.
ni dcick nj dcjck
ni nj
dcntck
روش centroid
•
فاصله بين دو کالستر ،فاصله (معموال فاصله اقليدسي ساده يا مجذور) بين centroid
آنها مي باشد.
• Centroidکالستر ها ميانگين مقادير مشاهدات روي متغيرهاي clusterمي باشد.
• به جای تعریف فاصله بین دو كالستر به صورت میانگین فاصله بین همه
جفت اشیاء ،می توان ابتدا اشیاء كالستر ( محاسبه كالستر ) Centroidرا
میانگین گیری كرد و سپس فاصله بین دو Centroidرا محاسبه نمود.
entroid وk فاصله مربع اقلیدسی بین شی، باشدc i, j • اگر كالستر
: به صورت زیر نوشته می شود، c كالستر
2
kc
d
2
ik
d d
2
jk
2
dij
2
4
2
d ck , ci cj
2
nci dckci ncj dckcj
nci ncj
2
nci ncj dcicj
2
n
2
ci
ncj
روش واردWard’s Method
• بر خالف روش های قب لWard ،ك ه گاه ي روش حداقل
واريانس نیز ناميده مي شود ،در گام يك ،استراتژي متفاوتي را
اتخاذ مي كند .
• ب ه جاي تلفيق نزديكترين كالس ترها ب ا ه م ب ه دنبال تلفيق دو
كالستري است كه تركيبشان منجر به كوچكترين جمع مربعات
بين كالسترها (حداقل واريانس بين گروه ها) شود.
:مثال
• ی ک محق ق بازاریاب ی م ی خواه د بخ ش های بازار را در یک
جامعه کوچک بر اساس الگوی آنها در وفاداری به یک مارک و
فروشگاه تعیین نماید.
• یک نمونه کوچک از 7پاسخ دنده انتخاب شده است.
• دو شاخص وفاداری ( V1وفاداری به فروشگاه ) و ( V2وفادای
به مارک ) برای هر پاسخ دهنده در یک مقیاس از 0تا 10اندازه
گیری شده است.
• چگونه شباهت را اندازه گیری می کنیم؟
• چگونه کالسترها را تشکیل می دهیم؟
• چه تعداد گروه باید تشکیل دهیم؟
زمان تبلیغات
ثانیه
دقیقه
احتمال خرید
شی
180
3.0
60
A
210
3.5
65
B
240
4.0
63
C
شاخصهای فاصله ای بر مبنای احتمال خرید ودقیقه های تبلیغات
فاصله city-block
مجذور فاصله اقلیدسی
فاصله اقلیدسی نمونه
جفت اشیاء
رتبه
مقدار
مقدار
رتبه
مقدار
رتبه
3
5.5
3
25.25
3
5.025
A-B
2
4.0
2
10.00
2
3.162
A-C
1
2.5
1
4.25
1
2.062
B-C
شاخصهای فاصله ای بر مبنای احتمال خرید و ثانیه های تبلیغات
فاصله city-block
مجذور فاصله اقلیدسی
فاصله اقلیدسی نمونه
جفت اشیاء
رتبه
مقدار
رتبه
مقدار
رتبه
مقدار
3
35
2
925
2
30.41
A-B
2
63
3
3609
3
60.07
A-C
1
32
1
904
1
30.06
B-C
زمان تبلیغات
ثانیه
دقیقه
احتمال خرید
شی
180
3.0
60
A
210
3.5
65
B
240
4.0
63
c
شاخصهای فاصله ای بر مبنای داده های استاندارد شده احتمال خرید ودقیقه های تبلیغات
فاصله city-
block
مجذور فاصله اقلیدسی
فاصله اقلیدسی نمونه
رتبه
مقدار
رتبه
مقدار
رتبه
مقدار
ثانیه ها ودقیقه های
تبلیغات
احتمال خرید
اشیاء جفت
3
5.5
3
25.2
5
3
2.22
1.0-
1.06-
A-B
2
4.0
2
10.0
0
2
2.33
0.0
0.93
A-C
1
2.5
1
4.25
1
1.28
1.0
0.13
B-C
اکثر شاخص های فاصله ای به مقیاس متغیرها کامال حساس هستند
متغیرهایی که پراکندگی بیشتری دارند تاثیر بیشتری بر تشابه نهایی
دارند.
مثال تمایل به محصول-سن -درآمد
وزن دهی مطلق متغیرها بر اساس پراکندگی نسبی آنها درشاخص
فاصله ای اتفاق می افتد.
معمولترین شکل استانداردکردن,تبدیل هرمتغیربه هسته استاندارد شده Zاز طریق تفریق
میانگین از متغیر وتقسیم آن بر انحراف استاندارد هر متغیر میباشد.
تبدیل هر هسته داده خام به یک مقدار استاندارد شده با میانگین صفر وانحراف معیاریک می
باشد.
تاثیر این تبدیل در از میان برداشتن تفاوت در مقیاس ومتغیرهای استفاده شده در آنالیز
کالستر است.
تغییر در مقیاس ها تغییری در انحراف استاندارد ایجاد نمی نماید.
تصمیم برای استاندارد کردن اثرات مفهومی وتجربی دارد وباید با مالحظات دقیق اتخاذ
شود.
آنالیز کالستر یک استنتاج آماری نیست که درآن پارامترهای حاصل از یک
نمونه ،از نظر نماینده جمعیت بودن مورد ارزیابی قرارگیرد.
آنالیز کالستر یک روش عینی برای کمی کردن مشخصه های ساختاری یک
مجموعه از مشاهدات به کار میرود.
دونکته کلیدی در فرضیات آنالیز کالسترعبارتنداز:
.1نماینده نمونه بودن :کالسترها براین اساس نمونه نماینده ساختار جمعیت
است تشکیل می شوند.
Multicolinearity .2
آن دسته از متغیرهایی که وزن بیشتری را به خود اختصاص می
دهند.
در آنالیز کالستر هر متغیر نسبت به سایر متغیرها به صورت
یکسان وزن دهی می شود.
پس از انتخاب متغیرها ومحاسبه ماتریس تشابه ،فرایند کالستری آغاز
میگردد.
نخست محقق باید الگوریتم کالستر کردن را انتخاب کند وسپس درمورد
تعداد کالسترهایی که باید تشکیل شود تصمیم بگیرد.
انتخاب الگوریتم کالستر کردن وتعداد کالسترها عالوه بر نتایج بر تفسیر
آنها نیز تاثیر مهمی دارد.
نوع مسئله ،تعیین کننده نوع الگوریتم کالسترکردن است.
انجام محاسبات در زمان کم وسرعت باال برای نمونه های کوچک
زمان باالی محاسبات برای نمونه های بزرگ مثال“ 400و 500مشاهده ای
تاثیر منفی Outlierها بر جواب مسئله به ویژه درروش ارتباط کامل
نتایج کمتر تحت تاثیر outlierهای داده شاخص فاصله داده شده وشمول
متغیرهای نامناسب قرار میگیرد.
استفاده از هردو روش جهت تلفیق مزایا واز بین بردن معایب آنها.
نخست ،یک تکنیک سلسله مراتبی می تواند تعدادی کالستر را ایجاد نماید و
مرکز کالسترها را profileکند و outlireهای مشهود را تعیین نماید .بعد از
اینکه outlireها حذف شدند ،مشاهدات باقیمانده می توانند توسط یک روش غیر
سلسله مراتبی با مراکز کالستر به دست آمده از نتایج رویه سلسله مراتبی با
توانایی روش های غیر سلسله مراتبی برای fine-tuneنتایج با مجاز دانستن
تعویض عضویت کالستر تکمیل می شود.
گیج کننده ترین مسئله در کالستر کردن برای محقق،تعیین تعداد
نهایی کالسترها می باشد.
هیچگونه معیار آماری داخلی وجود ندارد(.تست معنی داری )
افزایش زیاد در متوسط فاصله کالستر
قوانین آماری ویا آزمون های آماری نظیرtau correlation/point-
biserialویا نرخ احتمال است.
پس از تعیین یک جواب قابل قبول محقق بایدساختار بنیادینی را که در
کالسترها تعریف شده آزمون نماید.
بررسی کالسترها با تعداد زیاد از مشاهدات
بررسی کالسترهای تک عضوی ودوعضوی وتعیین outlierبودن یا نبودن
آنها
چنانچه هر یک از کالسترها در روش سلسله مراتبی outlierتشخیص داده
شده وحذف شود محقق باید آنالیز کالستر را دوباره انجام دهد.
مرحله تفسیر شامل آزمودن هر کالستر از لحاظ cluster centroidبرای نام
گذاری یا تعیین برچسبی است که بتواندبه صورت دقیق ماهیت کالستر را
توصیف کند.
چیزی بیش از یک توصیف بدست می دهد ووسیله ای برای ارزیابی تطابق
کالسترهای استخراج شده با آنچه توسط تئوری یا تجربه عملی پیشنهاد می شود
فراهم می آورد.
Profileهایک الستر ارزیابیب ازار از معنیداریک اربردیرا ف راهم می
آورد.
درارزیابی تطابق یا معنی داری کاربردی ،محقق کالسترهای استخراج شده
را با typologyاز پیش تعیین شده،مقایسه می کند
حصول اطمینان از اینکه جواب کالستر نماینده ای از جمعیت عمومی باشد.
جواب کالستر بایستی قابل تعمیم به سایر اشیاء ودارای ثبات در طول زمان
باشد.
مستقیم ترین رویکرد دراین رابطه انجام آنالیز کالستر برای نمونه های
جداگانه،مقایسه جواب های کالستر وارزیابی تطابق نتایج می باشد.
بررسی متغیرهایی که در تشکیل کالستر ها لحاظ نشده لیکن در در کالسترها
تغییر می یابد(مثال سن)
متغیرهایی که برای ارزیابی پیش بینی اعتبار مورد استفاده قرارمیگیرند،باید
حمایت تئوریک وکاربردی داشته باشند.
مرحله profileکردن شامل توصیف مشخصه های هر کالستربرای این
است که چگونه کالستر برروی دیمانسیون های مناسب،با هم تفاوت دارند.
به صورت خالصه تاکید آنالیز Profileبر مشخصه هایی است که بین
کالسترها به صورت معنی داری متفاوت هستند ونیز مشخصه هایی که می
توانند عضویت در یک کالستر خاص راپیش بینی کنند.