کامپیوتر و IT و اینترنت

تشخیص داده های پرت

صفحه 1:
5200110000 ارائه دهنده : 9

صفحه 2:
۱ ۳ NS 0 LAN ۹ AC eee cheer AAA Normal Data 0 te Aon eT a a AAA AA OC 6 A 24 AAA ‏رويكردهاى مبتنى بر مجاورت‎ ٠ ا سا 00 ee na < استخراج داده‌های برت متنی و اشتراکی وه Ce Te ees Te ce < مابع

صفحه 3:
۳ مقدمه و توضیحات از داده كاوى؛ به عنوان مرحله اى از فرايند كشف دلنش كه الكوها ويا مدل ها را در ميان انبوهى از ‎ea‏ ا ا ا ل ا ‎PEC ICRES‏ ا ا | اطلاعلتى و مانند كن شكل عى كيرد و ماده اوليه به كار رفته در لَنء داده (اطلاعات) است. از اين رو سد بناى عمليات داده كاوى خوب, به كاركيرى و داسترسى به داده هاى اوليه خوب ومناسب است؛ كه از آن به آماده سازى يا بيش يردازش داده ها يآد مى شود. در واقع براى كشف دلنش به كمك داده کاوی بایستی مقدماتی صورت کرد که رس يي ‎SSCS‏ گویند 1 595805555559559 96592059060

صفحه 4:
BUS OS] a ors) 0 ت در نتایج کاوش است‌تا ورودی بد خروجی بد به دذ ‎RY eee‏ ۳ ree lon RM SB ee See MNT TL TOY آماده سازى داده 75 75 بررسی داده 20 15 ۲ مدل سازی داده 5 10 دول ۱ : مقایسه اهمیت گام آماده سازی داده ها با سایر کام های داده کلوق ال تام تام ۱۳۲۰۱۰۱۰۰1۰۰

صفحه 5:
01111 جيسة داده هاى يرت با داده نويز متفاوت هستند کر نویزها باید قبل از تشخیص داده های پرت برطرف شوند ‎een‏ ی تشخیص تقلب در کارتهای اعتباری تشخیص تقلب در صنایع ارتباطی ‎ek code‏ 00 ‏0 تسلل داد های ۳ ‏مال : دمای هوای ۰ ۰ ۳ ‏= تبرماه براى بيرجند ‎gm i nl in in i i om‏ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 6:
انواع داده برت ‎-١‏ 0111© 610031 ( داده يرت سراسرى يا داراى بى نظمى نقطه اى) ‎ny PC Fre Ly‏ 2 0 ‎Bre een erin ney <r y‏ شیء در مجموعه داده های پرت 210031) قراردارد اه اد نیو ‎en oh‏ ۱ ‎ear omrmE SEB)‏ ا ا ۰ ال و۳۳۳۵ ‎a‏ 1۱ pee eee oars Rue pea ps oer تب 2 1 1 1 7 1 1 1 1 - نله خلم زنل نله

صفحه 7:
انواع داده برت مك لاف اللا ا (داده پرت مشروط با حوزه ای ) « داده جزء مجموعه دادههای پرت ا می باشد اگر به صورت قابل توجهی از شرایط داده های انتخاب شده فاصله داشته باشد - ‏ا‎ oad Pe Se ‏ال‎ eee ‏ا 11111 ا‎ ys $1 اکر در دی ماه است این یک داده پرت | ۱

صفحه 8:
انواع داده برت (Collective) ..>5-r> و سس ‎calls‏ ار ۱ مر وت > تشخيص داده يرت تجمعى “ نه تنها رفتار فردى داده ها بلكه رفتار مجموعه اى از داده ها را در نظر 9 ‎Ce PST‏ ا ل ا ا انلف ‎pee Tre SNC‏

صفحه 9:
eer eld 5 رت ا بررسی نوبز در تشحیص داده ۳ شتا 1335|[ ‎zal sail alta‏ فا

صفحه 10:
ee TCT) دستهبندى رو شهاى تشخيص دادهها يرت: روش هاى نظارت شده . نيمه نظارت شده ‎٠‏ نظارت نشده روش هاى آمارى . مبتنى بر خوشه بندى و مبتنى بر مجاورت مت

صفحه 11:
ee TCT) ۱-۱ نظارت شده (5۱06۳۷۱560) Peeper eens ek oo) a 0 aE er Senne Oa eT ٩ TO TC te ed BC Tears) 0 ‏مدل سازى داده نرمال و كزارش آنهابى كه مشابه مدل داده هاى ترمال لكل‎ و مثال در برخعی از تشخیص نفوذ و با یا ویروس یابی ها فعالیت های طبیعی متفاوت هستند

صفحه 12:
ee TCT) (Cla 10) olin ‏اين روش زملنی استفاده می شود که داده های ما مشخصا برچسب نرمال و یا پرت نداشته باشند . در این روش داده هایی که‎ ‏بتوانند در يك كروه قرار كيرند به عنوان داده نرمال و در مدل ترمال قرار مى كيرند . ممكن است يك داده در بيش از يك‎ Ba SSP ey ye ‏ا ا‎ be ESC ENO CEES

صفحه 13:
ee TCT) (semi Supervised) 1s 2 Us «3 \-1P در اين روش ما معمولا تعداد داده نرمال و یا پرت برچسب دار کمی داریم . لذا با توجه به شرایط موجود نسبت به ایجاد ‎ace ee eee sree ne he Bene‏ ۱ ترمال استقاده كن ك7

صفحه 14:
ee TCT) ‎ia‏ ۷ روش آماری ‏در اين روش مدل نرمال داده ها توسط روش آمارى ‎aaa‏ ‎ ‏ليد مى شود . هر داده آى كه مطابق مدل نرمال نباشد داده يرت است . ‏تک متغیره بر مبنای توزیع نرمال . ‏چند متغیره ‏ ‎ ‏ی ‎Ne) ‏تن‎ ‏ار را(‎ gre] Pee car Poe IO Ve] | 00 Joo l aS comm oy 9 p95 25 ol GY oold guy ul ‎ ‎

صفحه 15:
eT) ( 1-1-7 غير بارامتريك ‎CEL SsS ۱ ee‏ Outlier Detection Using Histogram 7 ج 5 8 8 8 8 2 3 15.9, 11.8) 177,234 ‏م‎ ew )18.177[ )236.295[ EEE

صفحه 16:
ee TCT) yee ale Mtoe PI PEMO Ne ‏م ا‎ Sey eee OT eS ee

صفحه 17:
ee TCT) ۲-۲ > ا م م ا ا ا ا ا 0 ضعيف مثل شکل روبرو که خوشه های 8 , ‎۸٩‏ بزگ و متراکم لند .و خوشه 62 کوچک و ضعیف ا داده ا ا

صفحه 18:
Oe Ce LS ee) ور از ۶ 1- متعلق به هیچ خوشه ای نباشد مس ۳ A AA ET

صفحه 19:
روش های پارامتری : تشخیص داده های پرت بر اساس توزیع نرمال ۳ 7 ۳ ae ‏می شوند. پارامترها از داده های ورودی خوانده می قوند و تقاط با | 1 کر عنوان داده های پیت شناسایی می شوند.‎ ‏و ل‎ rc ‏ا ل‎ a ey ee oe neers rene 0000000 ا ل ل اس( اتتاتیلیر 0 م

صفحه 20:
ساير روش هاى بارامترى ات 2 حلبلا ا 0 0000 ا ل ا ل ل (0)وم/ + (0),د

صفحه 21:
5 ا ۱۳ ‏را رت م ل‎ OS ‏توزیع داده کلی . در شک 01 ۱2۰ ۰۹۱۳۱۱ 03 داده پرت کلی است.‎ ‏خوشه بندى مبتنى بر مجاورت نميتواند 01 و 02 را بيابند‎ Jl ‏اما 04 داده يرت نيست. با اين‎ 9 ‏ال‎ 0 ‏ا ا 0 ا‎ a Ee TSI ‏ری رت را‎ ‎Perce r ruin)‏ سب سس

صفحه 22:
منايع > Data Mining: Concepts and Techniques Jiawei Han, Micheline Kamber, and Jian Pei

صفحه 23:
el BVP) PY

39,000 تومان