تجزیه و تحلیل اطلاعاتعلوم مهندسی

داده کاوی : مفاهيم، روش ها، کاربردها، آينده

تعداد اسلایدهای پاورپوینت : 69 اسلاید

hassan

صفحه 1:
داده کاوی: مفاهیم» روشهاء کاربردهاه آینده

صفحه 2:
فهرست مطالب .ویدار ود داش آن > ال دی دلوم موز ‎١‏ مرال جرا یک فرب اگوی eae gag ‏ری‎ > ‏کاردا نی‎ > eens تكتيكيا داذوكاوى ‎<١‏ دی ae one © ete tee ay ‏ده بای‎ natn > ‎١‏ یه ع ‎

صفحه 3:
داده کاوی و دلایل پیدایش آن < توسعه تكنولوزيهاى ذخيره و بازيابى اطلاعات ‎٠‏ افزايش روزافزون حجم اطلاعات ذخ ‎ ‏< تنوع بسيار زياد در اطلاعات موجود < بانكهاى اطلاعاتى ‎٠‏ فايلهاى جندرسانه اى (تصاوير متحرك» فايلهاى صوتى) < اطلاعات متنی و فاقد ساختار ‎٠١‏ آرشیوهای اطلاعاتی؛ به دلیل حجم بسیار زیاد؛ غالبا به مقبره های اطلاعات تبدیل ‏می شوندء

صفحه 4:
داده کاوی و دلایل پیدایش آن علیرغم هزینه های سنگین در بخثی تکنولوژی اطلاعات؛ بسیاری از تصمیمها همچنان در فقر اطلاعاتی اتخاذ می گردند. از قابلیتهای بالقوه اطلاعات ذخیره شده استفاده نمی شود. نیاز به تبدیل اطلاعات به دانش در بسیاری زمینه ها آشکار گردیده است. وقایعی نظیر ۱۱ سپتامبره لزوم خودکار یا حداقل نیمه خودکار بودن فرآیند تبدیل اطلاعات به دانش را به خوبی نشان می دهند. داده کاوی به دهه ۸۰ برمی گردد. داده کاوی با تلاش برای اعمال تکنیکهای هوش مصنوعی بر روی بانکهای اطلاعاتی آغاز گردید.

صفحه 5:
پردازش اطلاعات: از فابلهای متنی تا داده کاوی ‎٠١‏ حرکت از روشهای ابتدائی پردازش اطلاعات به داده کاوی؛ همواره برحسب نیاز ‏حوزه های مختلف بوده است. ‎٠“‏ سير کلی تکنولوژی پردازش اطلاعات را می توان به صورت زیر خلاصه کرد: ‏< فابلها: اطلاعات ناهمگون؛ فاقد ساختار مشخص, اشتباهات متعدد؛ پردازش در حد تهيه فهرست ‏< بانکهای اطلاعاتی خاص: اطلاعات ناهمكون» اشتباهات نسبتا كمترء گزارشات آماری ‏ساده

صفحه 6:
پردازش اطلاعات: از فایلهای متنی تا داده کاوی(ادامه) * بانکهای اطلاعاتی رابطه ای: اطلاعات همگون, ارتباطات مشخص, اشتباهات کمتر» گزارشات آماری پیچیده و مقایسه ای و شامل ارتباطات عناصر مختلف ۶ بانکهای اطلاعاتی تحلیلی: ویژه تحلیل اطلاعات؛ اراثه یک مدل چندوجهی و امکان ساخت و مشاهده سریع گزارشات خاص» توانائی محدود در ذخیره سازی و پردازش انواع اطلاعات (معمولا فقط اطلاعات عددی) ۶ داده کاوی: امکان پردازش انواع اطلاعات؛ قابلیت کشف دانش از اطلاعات موجود

صفحه 7:
یک تعریف تئوریک از داده کاوی ۶ داده کاوی عبارت است از فرآيند (نيمه)خودكار استخراج دانش (در قالب الگوهای پنمان) از مجموعه اطلاعات ورودی. < معمولا آگاهی اندکی در مورد دانش هدف وجود دارد. < ورودی عمدتا بسیار حجیم و پردازش دستی آن ناممکن است. ۶ نتلیج حاصل از داده کاوی» با روشهای سنتی پردازش اطلاعات (گزارش گیری) قابل دستیابی نیست.

صفحه 8:
یک تعریف تئوریک از داده کاوی(ادامه) ۶ خودکاربیا نیمه خودکار بودن داده کاویبه معنای حدلقل نیازنبه دخالت کاربر است. < انواع اطلاعات (و نه صرفا اطلاعات عددی) قابل پردازش می باشند.

صفحه 9:
جایگاه داده کاوی > داده کاوی را می توان یک شاخه از یادگیری ماشین دانست. به دلیل عدم وجوضیک چارچوب تلوییک برای داده کاوی» در نظر گرفتن آن‌به عنوان زیر مجموعه ای از بادگیری ماشینحی تولند مورد بحث قرار گیرد. ۶ تلاشهای انسکی برای توسعه‌یک چارچوب تئوریک برای داده کاوی انجام گرفته است. ‎٠‏ اين ميزان تلاش کافی نبوده و به نتیجه قابل قبولی نرسیده است. ‏۶ تفسیر داده کاویبه عنوان زیر مجموعه ای از آماره چندان قانع کننده ‏نیست: مسائل با فضای حالت دارای ابعاد زیاد مهمترین وجه اين تمايزند.

صفحه 10:
جایگاه داده کاوی(ادامه) ۶ تفسیر داده کاوی-به عنوان فرآیندی جهت تخمین تابع توزیح احتمال تلم نمینه ها: تکراری بودن داده کاوی چنین طبقه بندی را رد می کند. <* نظریه داده کاوی معادل فشرده سازی» داده کاوی را فرآیندی برای فشرده سازی اطلاعات ورودی» از طریق پیدا کردن یک ساختار مناسب برای آّن در نظر می گیرد.

صفحه 11:
چند واقعیت تعریف موجوده سبب ایجاد انتظاراتی غیرواقعی از داده کاوی می شود. تا کنون؛ هيج سيستم /ف رآيند داده كاوى كاملا خودكارى كه منطبق بر شرایط واقعی باشد» ساخته نشده است. دخالت مستقیم کاربر» به خصوص در مراحل اولیه یک فر آیند داده کاوی» اجتناب ناپذیر است. داده کاوی به یک هیولای پرقدرت شبیه است: رها کردن بدون هدف آن در سرزمین اطلاعات» مطمئنا نتایج خوبی در پی نخواهد داشت. تمام قدمهای یک فر آیند داده کاوی توسط انسان تعریف می شود. چند مرحله کلی در هر فر آیند داده کاوی وجود دارد.

صفحه 12:
مراحل یک فر آیند داده کاوی ۳ هریک از مراحل, با مشکلات خاص خود مواجه است. ۳ پیرایش و تجمیح اطلاعات؛ معمولا حجم عمده کار را به خود اختصاص می دهند. ‎iy 1‏ دلنش؛به خصوص در مورد داده کاوی» در موارد متعددی هیچ راه حل قلبل قبولی از ‏سر استخراج جمی پیرایش انتخاب استخراج شده دانش اطلاعات اطلاعات اطلاعات هدف ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ein ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 13:
‎cle al‏ یک ف رآیند داده کاوی ‎ ‎ ‎ ‎ ‏< هبايه اصلى ‎٠‏ مجموعه نمونه هاى آموزشى: بايد انتخاب» جمع آورى و بيرايش شوند. ‏۶ نوع دانش: نوع دانش مورد انتظار» تکنیک داده کاوی مورد استفاده را مشخص خواهد کرد. ‏۶ دانش پایه: ‏داده کاوی غالبا به صهرت سلسله مراتبی از مفاهیم ‎ ‏انتقال دانش موجود در مورد مسئله به ف رآیند

صفحه 14:
پایه های یک فر آیند داده کاوی(ادامه) + معیارهای ارزیابی: ملاکهای ارزش دانش حاصل از داده کاوی» چه در زمان استخراح دانش و چه در زمان بازنمائی از اهمیت کلیدی برخهردار بوده و راهنمای فر آیند داده کاوی خواهند بود. < نحوه ارائه: معمولا بر حسب نوع دانش استخراج شده تعیین می شود. در موارد متعددی نیز روش مناسبی برای بازنمائی وجود ندارد.

صفحه 15:
دانش پایه ۶ دانش فعلی کاربر در مورد نمونه های آموزشی ‎٠“‏ غالبا ‎(Concept Hierarchy) ogee eal yo dude ogo‏ به صورت ترتیب جزنی بین سطوح تجرد مطرح می شود ۶ مثال: کشور > استان > شهر > منطقه

صفحه 16:
کاربردهای داده کاوی ۶ کاربردهای تجاری < کاربردهای علمی ۶ کاربردهای امنیتی

صفحه 17:
کاربردهای تجاری ‎٠١‏ تقربا در تمام سازمانها و نواع تجارتهاءب دلیل وجود اطلاعات» مى توان داده کاوی را مورد استفاده قرار داد. ‏۶ پیش بینی مربوط به بازار بورس ‎٠“‏ تحلیل سبد خرید ‎٠“‏ شناسائی طبقات و گروههای اصلی مشتریان ‏< تعیین میزان تاثیر عوامل مختلفی نظیر تبلیغات؛ تخفیف ... بر میزان و الگوهای فروش ‎

صفحه 18:
کاربردهای علمی اطلاعات جمع آوری شده در حوزه های مختلف: اطلاعات جغرافیانی؛ اطلاعات اقلیمی؛ اطلاعات پزشکی ‎٠“‏ حجم بسیار بالا و خصایص متعدد ‎Eg >‏ اطلاعات ‏۶ نویز شدید در غالب اطلاعات جمع آوری شده توسط سنسورها ‎٠“‏ فياز حبرم‌جه تکنیکهای داده کاوی؛ حدلقل جهت ایجاد امکان تصور اطلاعات برای متخصصان

صفحه 19:
کاربردهای علمی (ادامه) < حوزه پزشکی: < تشخیص بیماریها براساس انواع اطلاعات (تصاویر پزشکی مشخصات بیمار احتمالی) < تثخیص اهنجاریهلشی که توسط انسانبه سختی قلبل تشخیص خواهند بود (لکه ها و نقاط خاص داخل چشم‌که نشانه شروع کوری ناشی از دیابت می باشد)

صفحه 20:
کاربردهای علمی (ادامه) > حوزه اطلاعات جغرافیائی و اقلیمی < کشف پدیده های اقلیمی جدید ۶ تکنیکهای بصری سازی و بازنمائی اطلاعات > پردازش انواع اطلاعات (تصاوی اطلاعات‌به دست آمده از سنجنده ها)

صفحه 21:
مثالی از کاربردهای داده کاوی: اطلاعات ژنتیک )1( Genes (clustered) آرایه ای از نمونه های 01۸ انجام تعدادی آزمایش بر روی یک تراشه

صفحه 22:
مثالی از کاربردهای داده کاوی: اطلاعات ژنتیک (۲) معیار شباهت ژن ها: رفتار مشابه در آزمایش ها

صفحه 23:
کاربردهای علمی (ادامه) ۶ حوزه کاربردی فضا و سفرهای فضائی ۶ حجم بسیار زیادی از اطلاعات < نويز بسيار بالا ارزش بسيار زياد دانش قابل استخراج ۶ پردازش اطلاعات جمع آوری شده از فضا < پردازش اطلاعات مربوط به سفینه های فضائی ۶ ارائه دانش مفید برای اتخاذ تصمیم نهانی جهت برتاب يا عدم برتاب يك سفينه به فضا

صفحه 24:
کاربردهای امنیتی ۶ سیستمهای تفخیص نفوذ * روشهای سنتی, نظیر تشخیص حملات‌با استفاده از قوانین ارلثه شده توسط متخصصان». علاوه بر نیاز به اصلاح ‎«pile‏ برای مقابله با انواع جدید حملات کافی نیستند. حجم اطلاعات بسیار زیاد و فضای حالت غیر عدم امکان بررسی ‎plod‏ گزارشهای فعالیت توسط متخصصان شبکه < نیاز به شناسانی خودکار الکوهای جدید و مشکوک به تلاش برای نفوذ لزوم همکاری‌با متخصصان شبکه؛ از طریق خلاصه سازی وضعیت موجود و درخواست نظر متخصص در موارد مشکوک ابل تصور

صفحه 25:
کاربردهای امنیتی(ادامه) ‎٠“‏ مقابله با تروریسم ‏۶ در سالهای اخیرسبه خصوص‌پس از واقعه ۱۱ سپتامبرسبه صورت فزاینده ای مطرح شده است. ‏< مبه دليل عدم امكان انتشار تملمى اطلاعات مفيده پیشیفت کندتری (حدلقل از نظر افراد عادى) دارد. ‎٠‏ در حللت ایدهّل؛ داده کاوی بلید بتولنسبا پردازش اطلاعات از انواع مختلف» نسبت به احتمال وقوع حملات تروریستی؛ با ذكر جزنيات كافى» هشدار دهد. ‏< نتایج حاصل از آن می‌تواند در صورت عدم وجود دقت کافی» فاجعه آمیز باشد.

صفحه 26:
کاربردهای داده کاوی: جمع بندی حوزه های اصلی شامل کاربردهای علمی» تجاری و امنیتی می باشد. 7 _ در تمام حوزه ها با حجم بسیار زیاد اطلاعات و خصایص متعدد مواجهيم. ۳ در تمام حوزه ها با انواع اطلاعات مفيد روبرو هستیم. ” کاهش شدید هزینه هاء افزلیش در آمدها و نجات زنگی انسانیا از دسناوردهای داده کاوی در هریک از حوزه های کاربردی آن است.

صفحه 27:
کاربردهای داده کاوی: جمع بندی(ادامه) " کاربردهای تجاری: تشخیص صحت ادعای خسارت در بیمه؛ تشخیص سوء استفاده از کارتهای اعتباری» تحلیل اطلاعات مشتریان یک سازمان»... 7" کاربردهای علمی: حوزه های پزشکی» جغرافيائى و اقليمى» فضا و سفرهاى فضائى كاربردهاى امنيتى: مبارزه با تروريسمء مقابله با نفوذكران به شبكه هاى کامپیوتری

صفحه 28:
تکنیکهای داده کاوی ۶ دسته بندی ۶ قوانین تداعی ۶ یادگیری بدون نظارت: خوشه بندی ۶ تعریف و دلایل اهمیت خوشه بندی > کاربردهای خوشه بندی ۶ انواع خوشه بندی ‎٠١‏ مشكلات بيش روى خوشه بندى

صفحه 29:
دسته بندی یادگیری تابع نگاشت تر کیب مقادیر خصایصی به دسته های مختلف. ‎٠“‏ درخت تصميم گیری» یادگیری بیزی ‎٠“‏ پس از دریافت تعدادی نمونه آموزشی یادگیرنده باید دسته نمونه های جدید را مشخص نماید. ‏> منال: ‏< یک کاتالوگ با هزینه سنگین چاپ و توزیع ‏۶ لزوم ارسال انتخابی کاتالوگ (نه برای همه) ‏< دسته بندی: با توجه به سوابق ارسال کاتالوگها و پاسخ مشتریان» چه افرادی احتمالا در گروه "علاقه مند به محصول معرفی شده" قرار می گیرند؟ ‏كاهش هزينه ها

صفحه 30:
درخت تصمیم - ابزار دسته بندی < معمولا بر مبنای کاهش آنتروپی عمل می کند. < در هربند؛ خصیصه ای‌که بیشتیین کلهش را در آنتریپی نمینه ها ایجاد می کند» انتخاب می شود: ‎=Entroys)- SY Sl entrons)‏ ۸ ک5انند6 ‎٩‏ مس

صفحه 31:
درخت تصمیم - ابزار دسته بندی(ادامه) ۶ نمنه ها بر حسب مقدار خصیصه انتخاب شده در ند جاری» بين زير شاخه های آن تقسیم می شوند. < هو ندی که تمام نمینه های تن ازییک کلاس باشند؛ یک برگ است.

صفحه 32:
درخت تصمیم - یک مثال (۱) ‎٠‏ مجموعه نمونه های آموزشی: ‎Inco ‎> ‎<50K ‎>50K ‎<50K ‎<50K ‎>50K ‎ ‎Hours ‎Per ‎Week ‎30-40 ‎30-40 ‎40-50 ‎40-50 ‎30-40 ‎30-40 ‎ ‎Gend ‎Male ‎Femal ‎Femal ‎Male ‎Male ‎Femal ‎ ‎Educati ‎on ‎BS ‎BS ‎MS ‎BS ‎MS ‎BS ‎ ‎‘Age ‎21- ‎30 ‎30- ‎40 ‎30- ‎40 ‎21- ‎30 ‎21- ‎30 ‎21- ‎30 ‎ ‎Id ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 33:
قوانین تداعی (انجمنی) > تعبين ارتباط اقلام مختلف با یکدیگر در مجموعه اطلاعات ورودی. > حمايت واطمينان: معيارهاى ارزيابى ارقباط. < مال: ‎٠‏ در يك فروشكاه زنجيره أى» معمولا جه كالاهائى با هم خریده می شوند؟ ‎ ‏محصولات در فروشكاه > تخفيفها وجايزه هاى هدف دار

صفحه 34:
تشخیص قوانین تداعی الگوریتم ۸۵۲۱0۲ حمایت: (8 لا 6)8 احتمال وقوع دو قلم ‎Bg A‏ اطمینان: (2)۸[8 هر تک قلمی که از حداقل حمایت برخوردار باشده یک کاندید قانون تداعی است. مجموعه اقلام متداول» شلمل تمام ابرمجموعه های کاندیداهای قوانین تداعی است. ابر مجموعه یک مجموعه غیرمتداول, نمی تواند متداول باشد.

صفحه 35:
تشخیص قوانین تداعی ۴ هر مجموعه اقلام متداولبه تمام دو زیرمجموعه های ممکن تقسیم شده و اطمینان قوانین حاصل محاسبه میشود. > {P1, P2, ۴3: ۳1 -< {P2, P3}, {P2, P3} -> Pl

صفحه 36:
دلایل اهمیت یادگیری بدون نظارت کمک به درک نحوه کشف اصول اولیه توسط اررگانیسم ها به عنوان پیش پردازش برای یادگیری با نظارت کمک به کشف خصایص مهم در نمونه های با ابعاد زیاد کشف گروههاء طبقات» ... جدید

صفحه 37:
‎٠“‏ از شاخه های داده کاوی و يادكيرى بدون نظارت < تعریف ‏۴ کشف خودکار خوشه های موجود در موه ها ‎٠‏ خوشه: نمونه هاى آموزشى نزديك به هم / كروههائى از اشياء مشابه. > نزديك: معيارهاى متفاوت و متنوع ‎٠‏ عملكرة بر روى تمونه هى داراى ابعاد نسبتا زياد ‏< مقایسه با دسته بندی ‏برچسبهای اولیه تامشخص در خوشه بندی

صفحه 38:
خوشه بندی: یک مثال تصویری ‎٠“‏ سه خوشه بديهى از نمونه ها < تشخیص چنین خوشه هائی در ابعاد زیاده ساده نیست؟ ‎

صفحه 39:
خوشه بندی: کاربردها (۱) ۶ تخمین تابع توزیع نمونه های آموزشی ۶ تشخیص موارد غیرهمگون ۴ تکمیل مشخصات یک نمونه ۶ تجسم و درک نمونه ها > تشکیل سلسله مراتبی از نمونه ها < کاهش ابعاد

صفحه 40:
خوشه بندی: کاربردها (۳) < متن کاوی و خوشه بندی اسناد ۴ تشکیل سلسله مراتبی از عناوين» با بررسی متن ۶ استخراج دانش از نمونه های فاقد ساختار مشخص < تشخیص اسناد مرتبط ۴ بازیابی اطلاعات * بازیابی مجموعه ای از نموه های مشابه < فشرده سازی همراه با تخریب

صفحه 41:
خوشه بندی: روش ها )1( < روش های سلسله مراتبی ‎٠“‏ تشکیل سلسله مراتبی از خوشه ها ۶ یادگیری تدریجی خوشه ها دو رويكرد عمده ‎٠١‏ بالابه بائين (تجزيه اى): ساخت يك خوشه بزرى و تجزيه آن ‎P‏ پائین به بالا (ترکیبی): ساخت خوشه هاى كوجك و ادغام آنها ‎

صفحه 42:
خوشه بندی سلسله مراتبی یک مثال تصوبری > هر دایره» نشانه یک خوشه

صفحه 43:
خوشه بندی: روش ها (۲) ‎٠“‏ روش های مبتنی بر بخش بندی و تخصیص مجدد > ارائه ساختار سطح از خوشه ها ۶ یادگیری مستقیم خوشه ها > انتخاب تصادفی خوشه های اولیه ۶ بهبود پاسخ از طریق جا به جائی نقاط بین بخش (خوشه) ها ۴ از ساده ترین روشها ۴ منال هایی از روش مبتنی بر بخش بندی ‎K-Means <‏ ‎K-Medoids >

صفحه 44:
خوشه بندی: روش ها (۳) * روش های مبتنی بر جدول (6710) < تقسیم فضای حالت به تعدادی ابر مكعب < تشخیص ابرمکعب های متراکم < جستجوی خوشه ها به صورت مجموعه هائی از ابرمکعب ها < چند الگوریتم از نوع مبتنی بر جدول: < 51116 ‎Wave Cluster >‏ CLIQUE >

صفحه 45:
خوشه بندی مبتنی بر جدول ‎CLIQUE pis gt‏ salary salary ‏ون‎ ۳ و 7 وه دور ره و ویو ید ره 20 25 30 35 40 45 50 55 60 65 70 age تشخيص نواحى متراكم در زير مجموعه هاى فضاى حالت اصلى ‎٠“‏ تركيب نواحى متراكم مجاور و ساخت خوشه ها

صفحه 46:
بندی: معیارهای ارزیابی امکان اعمال بر روی تعداد نمونه های زیاد امکان اعمال بر روی نمونه های دارای ابعاد زیاد امکان پردازش مجموعه های حاوی نویز کشف خوشه های دارای شکل هندسی نامنظم میزان وابستگی به پارامترهای ورودی

صفحه 47:
خوشه بندی: وضعیت فعلی < شاخص های ارزیابی > امکان اعمال بر روی نمونه های با ابعاد زیاد (مقیاس پذیری) ان اعمال ب غیرق بتم مورچگان) < خوشه بندی با روش های غیرقطعی (الگوریتم مورچگان)

صفحه 48:
تکنیکهای داده کاوی: جمع بندی ‎٠“‏ دودسته کلی یادگیری با نظارت و یادگیری بدون نظارت ۶ خوشه بندی به عنوان ابزار اصلی یادگیری بدون نظارت ‏< انواع روشهای خوشه بندی شامل: روشهای آماری» روشهای مبتنی بر جدول» روشهای بخش بندی و تخصیص مجدد ‏۶ الگوریتمهای متداول خوشه بندی ‎٠“‏ مسائل جدید: شاخصهای ارزیابی» روشهای تصادفی در خوشه بندی» مقیاس پذیری

صفحه 49:
آینده داده کاوی: کاربردهای جدیده چالشها و دستاوردها < تشخیص ناهمگونی تعريف و دلايل بيدايش ۶ تکنیکهای موجود ۶ داده‌کاوی توزیع شده ‎P‏ تعریف و دلایل اهمیت ‏۶ رویکردها و تکنیکها ‏۶ عاملها و داده کاوی توزیع شده ‏۶ داده کاوی و حریم خصوصی ‎

صفحه 50:
تشخیص ناهمگونی از مسائل نسبتا جدید در داده کاوی. < تشخیص ناهمگونی عبارت است از دسته بندی» در حالتی که نسبت تعداد نمونه هاى يك كلاس به سایر کلاسها؛ بسیار اندک باشد (نسبتهای متداول» ۰ ۱:۱۰۰۰۰ ... می باشد). < دو دسته کلی وجود دارد: دسته طبیعی و دسته ناهمگون (مثبت) < تمامی یادگیرنده های معمول در داده کاوی (نظیر درخت تصمیم) در مواجهه با اين مسئله با شکست مواجه می شوند.

صفحه 51:
تشخیص ناهمگونی(ادامه) < فاتوانی در حل این مسئله, به نوع استقراء يادكيرنده مربوط می شود. < بسیاری از روشهای داده کاوی» استقراء متمایل به حالت کلی دارند. < در مسئله تنخیص ناهمگونی» استقراء متملیل به حالت خاص از کا رآفی بیشتری برخوردار خواهد بود.

صفحه 52:
کاربردهای تشخیص ناهمگونی > کاربردهای پزشکی: بیماریها برپلیه شناسائی موارد غیرعادی در اطلاعات یک بیمار. < کاربردهای علمی: بررسی اطلاعات ژُوفیزیکی و هشدار در مورد وقوع زمین لرزه احتمالی. ۴ کاربردهای تجاری: بررسی بروز شرلیط غیرعادی در بازار بورس» تشخیص سوءاستفاده از کارتهای اعتباری؛ تشخیص صحت ادعاهای خسارت در شرکتهای بیمه. < کاربردهای امنیتی: شناسائی فردجا افراد مظنون جه انجام عملیات تروریستی» تشخیص رفتار غیرمعمول در شرایط مختلف.

صفحه 53:
انواع خطا در تشخيص ناهمكونى دو كروه عمده از خطاها وجود دارد. غيرواقعى: نمينه هاى متعلق.به دسته طبيعى كه اشتبلهلبه عنوان ناهمكونى دسته بندى مى شوقد. منفی غیرواقعی: نمونه های متعلق‌به دسته ناهمگون (مثبت) کمبه اشتباه, طبیعی تلقی می شوند. معمولا هزینه این دو نوع خطاء یکسان نیست. بر حسب مسئله هدف» هريك از دو خطای احتمالی می تواند فاجعه آمیز باشد.

صفحه 54:
تشخیص ناهمگونی: رویکردها تقسیم فضای حالت © نمونه برداری > کاهش نمونه های نرمال < افزایش نمونه های مثبت ۶ هر دو روش نمینه برداری ممکن است به تطبیق بیش از حد منجر شوند. ‎٠١‏ یادگیری حساس به هزینه تقویت نمونه های آموزشی(50051[9)

صفحه 55:
تشخیص ناهمگونی: معیارهای ارزیابی > معبارهاى متداول ارزیبی یک الوریم بدگیری؛ در این موردکارساز نیت < . معباری نظیر تعداد خطاهای دسته بندی در نمینه های مجموعه آزمایشی: يك دسته بندی کننده غیرهوشمند که همواره پاسخ "طبیعی" ارائه کند؛ به دقت بیش از ‎٩۰7‏ دست خولهد یافت. _ نیز به معبارهای ارزیابی جدید. * یک معبار مناسب؛ نسبت تعداد مثبتهای واقعی (نرخ تشخیص)به تعداد مثبتهای غیرواقعی (نرخ هشدار غیرواقعی) می باشد. منحنی 106 نرخ تشخيص و نرخ هشدار غيرواقعى را در مورد بك بادكيرنده نشان مى دهد.

صفحه 56:
داده کاوی توزیع شده بسیاری از پیش فرضهای یک فر آیند داده کاوی؛ در شرایط عادی برقرار نیست. ۶ تکنیکهای موجود» فرض را بر در اختیار داشتن تملسی اطلاعات موجود در قللب‌سیک فلیل واحد و دارای ساختار ثابت به ازای تمام نمونه ها قرار می دهند. ۶ جنين فرضی» تقريبا در هيج کاربرد واقعی برقرار نیست. ‎٠١‏ اجراى مراحلی نظیر تجمیع اطلاعات؛ می تواند به دلایل متعددی غیرممکن باشد. ‏< منلبع اطلاعلتی در دسترس, غالبا ناهمگون» توزیع شده و دارای ضرلیب اطمینان متفاوت می باشند. ‎٠“‏ علیرغم نیاز بسیاری سازمانهلبه دلنش حاصل از داده کاوی» ریسک افشای اطلاعات محرمانه ‏همچنان از ورود داده کاوی به این سازمانها جلو گیری می نماید. ‏انواع متعددی از اطلاعات وجود داردکه ضمن دشوارسیا غیرهممکن بودن تبسيل آنها به اطلاعات ‏در قالب بانکهای اطلاعاتی» نمی توان از دانش بالقوه موجود در آنها صرف نظر کرد.

صفحه 57:
دلایل پیدایش داده کاوی توزیع شده ۶ ملاحظات رقابتی < ترس از حملات استنتاجی < ترس از افشای اطلاعات خام ‎٠“‏ محدودیت دستگاههای ذخیره سازی و نیز پهنای باند شبکه ها > عدم امکان تجمیع اطلاعات مورد نیاز در یک محل مرکزی ‎٠١‏ عدم امکان انتقال اطلاعات روی شبکه های کامپیوتری موجود > تنوع اطلاعات موجود < نیز بهالگوریتمهای متخصص در هر نوع اطلاعات ‎٠‏ لزوم ادغام نتايج ميانى جند الكوريتم؛ به جاى مبادله اطلاعات خام

صفحه 58:
دلایل پیدايش داده کاوی توزیع شده(ادامه) < ملاحظات امنیتی < لزوم حفظ حویم خصوصی افراد: پراکندگی اطلاعاتیک نمینه خاص در نقاط مختلف و غیرقانونی بودن جمع آوری این اطلاعات در یک نقطه مركزى. < عدم امکان شرکت دادن تعلمی متخصصان در فرآیند استخراج دانش (از طریق برگزاری مسابقات) < عدم امکان به اشتراک گذاری اطلاعات؛ حتى بين جند سازمان با اهداف مشترك.

صفحه 59:
تکنیکها و رویکردها در داده کاوی توزیع شده دو گروه عمده در تکنیکهای داده کاوی توزیع شده: ۶ تکنیکهای مربوط به اطلاعات همگون < تکنیکهای مربوط به اطلاعات ناهمکون تمام روشها بر مبنای انتقال نوعی از اطلاعات میانی» با حدا کثرسازی امکان کشف دلنش و حدلقل سازی امکان حدس زدن اطلاعات خام توسط دیگران استوار می باشند. عمده تیین (و شلید تنها) رویکرد موجودبه داده کاوی توزبع شده؛ به کار گیری عاملها می باشد.

صفحه 60:
عاملها و داده کاوی توزیع شده ‎٠“‏ عامل: یک نرم افزار دارای قابلیت رفتار واکنشی و رفتار هدفمند ‏< مسئله داده کاوی توزیع شده» با مسئله استفاده از چندعامل هوشمند مستقل در حل یک مسئله خاص, تطابق دارد. ‏> عاملهای متخصص برای هر نوع اطلاعات. ‎٠“‏ توزيع شدكى عاملها و عدم نياز به انتقال اطلاعات خام. ‏۶ امکان همکاری عاملها در جهت حل یک مسئله داده کاوی» از طریق پروتکلهای ارتباطی نظیر تخته سیا ‏< سئله منفعتگرایی عاملها و شرکت یا عدم شرکت در یک فرا داده کاوی. ‏عذا کره خود کار بین عاملهاء جهت تبادل اطلاعات و دانش, ‎ ‎

صفحه 61:
داده کاوی و حریم خصوصی در موارد متعدد؛ داده کاوی می تواند به کشف دانش محرمانه و با نقض حریم خصوصی افراد منجر شود. صرف ممنوعیت جمع آوری ‎pled‏ اطلاعات مربوط به اشخاص در یک نقطه مر کزی» تضمینی برای عدم نقض حریم خصوصی افراد ایجاد نخواهد کرد. ‎٠“‏ ریسک حملات استنتاجی» یا استفاده از دانش و اطلاعات خام از چند منبع جهت کشف اطلاعات و یا دانش محرمانه» بسیاری از سازمانها را از شرکت در هرگونه فرآیند داده کاوی اشتراکی باز می دارد. ‎٠“‏ هدف از حفظ حریم خصوصی و اطلاعات محرمانه؛ مقابله با حملات استنتاجی و یا هر گونه روش ‏دیگری برای کشف دانش محرمانه می باشد. ‎ ‏موفقيت اين دسته از روشهاء مى تواند به توسعه کاربردهایداده کاوی منتهی شود. مانندمسئله وبروسها و فوذگران بهشبکه های کامیوتری» در ینجا یز مبارزه ای بیپایان وجود دارد.

صفحه 62:
تكنيكهاى مقابله با نقض حریم خصوصی ناشی از داده کاوی تکنیکهای سردر گم کننده یادگیرنده ‎٠‏ حذف بعضی نمونه های آموزشی > حذف بعضی خصایص ۶ تغییر مقادیر بعضی از خصایص < هدفه جلوگیری از کشف دلنش محرملنه, ضمن حفظ امکان استخراج دانش مفید است. < تکنیکهای تشخیص دانش محرمانه

صفحه 63:
جمع بندی و نتیجه گیری ۶ داده کاوی عبارت است از فرآیند نیمه خودکار استخراج دانش از اطلاعات موجود. ۶ داده کاوی شلمل مراحل انتخاب؛ پیرلیش و تجمیع اطلاعات؛ استخراج و بازنمائی و تفسیر دانش می باشد. ۴ کاربردهای داده کاوی شامل حوزه های تجاری» امنیتی و علمی میباشد. < تکنیکهای اصلی داده کاوی عبارتند از: دسته بندی» خوشه بندی و استخراج قوانین تداعی.

صفحه 64:
جمع بندی و نتبجه گیری(ادامه) مسائل جدید در داده کاوی عبارتند از: تشخیص ناهمگونی؛ داده کاوی توزیع شده و مسئله حفظ دانش محرمانه و حریم خصوصی. نیاز مبرم به روشهای داده کاوی مقیاس پذیر نیاز به توسعه داده کاوی بر روی انواع اطلاعات موجود نباز به توسعه داده کاوی به عنوان یک ف رآیند استندارد و توزیع شده

صفحه 65:
پیشنهاداتی برای تحقیق ساخت الگوریتمهایی برای غلبه بر مسئله ابعاد زیاد نمونه ها (نفرین ابعاد) ‎٠١‏ توسعه روشهایی برای داده کاوی بر روی اطلاعات در حجم بسیار زیاد (به خصوص در مورد خوشه بندی). ‎٠١‏ بررسی نقش عاملها در داده کاوی توزیع شده؛ توسعه جهت تحقق داده کاوی توزیع شده ‏<_ توسعه روشهای داده کاوی مبتنی بر انواع اطلاعات ‎٠“‏ بهبود روشهای حفظ اطلاعات محرمانه و جلوگیری از حملات استنتاجی ‎CSN iy jac Mp agian acl glen Sad

صفحه 66:
فهرست منابع J. Han, M. Kamber and Simon Fraser, Data Mining: Concepts and Techniques, Morgan Kaufman Publisher., 2001 H. Miller, and J. Han, Geographic Data Mining and Knowledge Discovery. Taylor and Francis, London, U.K., 2001. M. Steinbach, P. Tan, V. Kumar, S. Klooster, and C. Potter, Data ing for the discovery of ocean climate indices, Proceedings of th 5th Workshop on Scientific Data Mining (SDM 2002), (Arlington, VA, Apr. 13), Society of Industrial and Applied Mathematics, pp 7-16, 2002. S.J. Stolfo, W. Lee, P. K. Chan, W. Fan and E. Eskin, “Data Mining-based Intrusion Detectors: An Overview of the Columbia IDS Project’, SIGMOD Record, Vol. 30, No. 4, December 2001, pp 5-14, 2000.

صفحه 67:
۱ فهرست منابع(ادامه) 5- H. Kargupta, A. Joshi, K. Sivakumar and Y. Yesha, “Data Mining: Next Generation Challenges and Future Directions’, Prentice Hall of India, pp. 157-219, 2005. 6- L. A.F. Park, K. Ramamohanarao, and M. Palaniswami, “Fourier Domain Scoring: A Novel Document Ranking Method’, IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 16, NO. 5, pp 529-539, MAY 2004 7- S. Schockaert, M. De Cock, C. Cornelis and E. E. Kerre “Efficient Clustering with Fuzzy Ants’, Applied Computational Intelligence, World Scientific, p. 195- 200, 2004

صفحه 68:
فهرست منابع (ادامه) M. Halkidi, Y. Batistakis and M. Vazirgiannis, “On Clustering Validation Techniques”, Journal of Intelligent Systems, vol. 17:2/3, pp 107-145, 2001 S. D*zeroski and H. Blockeel, MultiRelational Data Mining 2004: Workshop’ Report, SIGKDD Explorations. Volume 6,lssue 2, pp. 140-141, 2004. C.A. Ratanamahatana and ‏.ع‎ Keogh, Towards Parameter-Free Data Mining, KDD ‘04, Seattle, Washington, USA, pp. 206-215, 2004 8. 10.

صفحه 69:
فهرست منابع (ادامه) 11- H. Mannila, “Theoretical Frameworks for Data Mining’, SIGKDD Explorations, January 2000. Volume 1, Issue 2 - page 30-32 12- R. Grossman, Data Mining Standards, Services, and Platforms 2004 (DMSSP 2004) Workshop Report,, SIGKDD Explorations. Volume 6,lssue 2 - Page 157-158, 2004. 13- U.M. Fayyad, G.Piatetsky-Shapiro, R. Uthurusamy, Summary from the KDD-03 Panel -- Data Mining: The Next 10 Years, SIGKDD Explorations. Volume 5,lssue 2 — pp. 191-196, 2003.

جهت مطالعه ادامه متن، فایل را دریافت نمایید.
30,000 تومان