صفحه 1:
5200110000
ارائه دهنده : 9
صفحه 2:
۱ ۳
NS
0 LAN
۹ AC eee cheer
AAA Normal Data 0 te
Aon eT a
a AAA AA OC 6
A 24 AAA رويكردهاى مبتنى بر مجاورت ٠
ا سا
00 ee na
< استخراج دادههای برت متنی و اشتراکی وه
Ce Te ees Te ce
< مابع
صفحه 3:
۳ مقدمه و توضیحات
از داده كاوى؛ به عنوان مرحله اى از فرايند كشف دلنش كه الكوها ويا مدل ها را در ميان انبوهى از
ea ا ا ا ل ا
PEC ICRES ا ا |
اطلاعلتى و مانند كن شكل عى كيرد و ماده اوليه به كار رفته در لَنء داده (اطلاعات) است. از اين رو
سد بناى عمليات داده كاوى خوب, به كاركيرى و داسترسى به داده هاى اوليه خوب ومناسب است؛
كه از آن به آماده سازى يا بيش يردازش داده ها يآد مى شود. در واقع براى كشف دلنش به كمك داده
کاوی بایستی مقدماتی صورت کرد که رس يي SSCS گویند
1 595805555559559 96592059060
صفحه 4:
BUS OS] a ors)
0 ت در نتایج کاوش استتا
ورودی بد خروجی بد به دذ
RY eee
۳ ree lon RM SB ee See MNT TL TOY
آماده سازى داده 75 75
بررسی داده 20 15 ۲
مدل سازی داده 5 10
دول ۱ : مقایسه اهمیت گام آماده سازی داده ها با سایر کام های داده کلوق
ال تام تام ۱۳۲۰۱۰۱۰۰1۰۰
صفحه 5:
01111 جيسة
داده هاى يرت با داده نويز متفاوت هستند
کر
نویزها باید قبل از تشخیص داده های پرت برطرف شوند
een ی
تشخیص تقلب در کارتهای اعتباری
تشخیص تقلب در صنایع ارتباطی
ek code 00
0 تسلل داد های ۳
مال : دمای هوای ۰ ۰ ۳
= تبرماه براى بيرجند
gm i nl in in i i om
صفحه 6:
انواع داده برت
-١ 0111© 610031 ( داده يرت سراسرى يا داراى بى نظمى نقطه اى)
ny PC Fre Ly 2 0
Bre een erin ney <r y
شیء در مجموعه داده های پرت 210031) قراردارد اه اد نیو
en oh ۱
ear omrmE SEB) ا ا ۰ ال
و۳۳۳۵ a
1۱ pee eee oars Rue pea ps oer
تب
2 1 1 1 7 1 1 1 1 -
نله خلم زنل نله
صفحه 7:
انواع داده برت
مك لاف اللا ا (داده پرت مشروط با حوزه ای )
« داده جزء مجموعه دادههای پرت ا می باشد اگر به صورت قابل توجهی از شرایط داده های انتخاب شده فاصله داشته باشد
- ا oad
Pe Se ال eee ا 11111 ا ys $1
اکر در دی ماه است این یک داده پرت | ۱
صفحه 8:
انواع داده برت
(Collective) ..>5-r>
و سس calls ار ۱
مر وت
>
تشخيص داده يرت تجمعى
“ نه تنها رفتار فردى داده ها بلكه رفتار مجموعه اى از داده ها را در نظر 9
Ce PST ا ل ا ا انلف pee Tre SNC
صفحه 9:
eer eld 5
رت
ا
بررسی نوبز در تشحیص داده ۳
شتا 1335|[ zal sail alta فا
صفحه 10:
ee TCT)
دستهبندى رو شهاى تشخيص دادهها يرت:
روش هاى نظارت شده . نيمه نظارت شده ٠ نظارت نشده
روش هاى آمارى . مبتنى بر خوشه بندى و مبتنى بر مجاورت
مت
صفحه 11:
ee TCT)
۱-۱ نظارت شده (5۱06۳۷۱560)
Peeper eens ek oo) a 0 aE er Senne Oa eT
٩ TO TC te ed BC Tears)
0 مدل سازى داده نرمال و كزارش آنهابى كه مشابه مدل داده هاى ترمال لكل
و
مثال در برخعی از تشخیص نفوذ و با یا ویروس یابی ها فعالیت های طبیعی متفاوت هستند
صفحه 12:
ee TCT)
(Cla 10) olin
اين روش زملنی استفاده می شود که داده های ما مشخصا برچسب نرمال و یا پرت نداشته باشند . در این روش داده هایی که
بتوانند در يك كروه قرار كيرند به عنوان داده نرمال و در مدل ترمال قرار مى كيرند . ممكن است يك داده در بيش از يك
Ba SSP ey ye ا ا be ESC ENO CEES
صفحه 13:
ee TCT)
(semi Supervised) 1s 2 Us «3 \-1P
در اين روش ما معمولا تعداد داده نرمال و یا پرت برچسب دار کمی داریم . لذا با توجه به شرایط موجود نسبت به ایجاد
ace ee eee sree ne he Bene ۱
ترمال استقاده كن ك7
صفحه 14:
ee TCT)
ia ۷ روش آماری
در اين روش مدل نرمال داده ها توسط روش آمارى
aaa
ليد مى شود . هر داده آى كه مطابق مدل نرمال نباشد داده يرت است .
تک متغیره بر مبنای توزیع نرمال .
چند متغیره
ی
Ne) تن
ار را( gre] Pee car Poe IO Ve]
|
00 Joo l aS comm oy 9 p95 25 ol GY oold guy ul
صفحه 15:
eT) (
1-1-7 غير بارامتريك
CEL SsS ۱ ee
Outlier Detection Using Histogram 7
ج 5 8 8 8 8 2 3
15.9, 11.8) 177,234 م ew
)18.177[ )236.295[ EEE
صفحه 16:
ee TCT)
yee ale
Mtoe PI PEMO Ne م ا Sey eee OT eS
ee
صفحه 17:
ee TCT)
۲-۲
>
ا
م م ا ا ا ا ا 0
ضعيف
مثل شکل روبرو که خوشه های 8 , ۸٩ بزگ و متراکم لند .و خوشه 62 کوچک و ضعیف ا داده
ا ا
صفحه 18:
Oe Ce LS ee)
ور از
۶ 1- متعلق به هیچ خوشه ای نباشد
مس ۳
A AA ET
صفحه 19:
روش های پارامتری : تشخیص داده های پرت بر اساس توزیع نرمال
۳ 7 ۳ ae
می شوند. پارامترها از داده های ورودی خوانده می قوند و تقاط با | 1 کر عنوان داده های پیت شناسایی می شوند.
و ل rc ا ل a
ey ee oe neers rene
0000000
ا ل ل اس(
اتتاتیلیر 0 م
صفحه 20:
ساير روش هاى بارامترى
ات 2 حلبلا
ا 0 0000
ا ل ا ل ل
(0)وم/ + (0),د
صفحه 21:
5 ا
۱۳ را رت م ل OS
توزیع داده کلی . در شک 01 ۱2۰ ۰۹۱۳۱۱ 03 داده پرت کلی است.
خوشه بندى مبتنى بر مجاورت نميتواند 01 و 02 را بيابند Jl اما 04 داده يرت نيست. با اين
9 ال
0 ا ا 0 ا a Ee TSI
ری رت را
Perce r ruin) سب سس
صفحه 22:
منايع
> Data Mining:
Concepts and Techniques
Jiawei Han, Micheline Kamber, and Jian Pei
صفحه 23:
el
BVP) PY