صفحه 1:
Data Mining By : Alireza Abazari

صفحه 2:
&...2 Data Mining ‏عبايتلسز لقتباسريالستخراج دلنثراز مجموعه لىاز‎ BY) TT aT ate © ‏تر لي 3 فرليندىلستكه با‎ ne ere ry ‎gn emt tee Pe cece om oom‏ ا میک ن. ‏© 110100 1033 از ساختمدلهائةحليلى دسته بندىو ييشربينى لطاهات ل ا ل 7 0 ‏* براى اينكه الكوريتم 1/1111119 03]3] بتواند عمل استخراج دانش را بخوبی انجام دهد. نیاز به یک سری پیش پردازش ها بر روی مجموعه آموزشی و یک سری پس پردازش ها بر روی الگوهای استخراج شده دارد. ‎

صفحه 3:
Data Mining J>1,. Reiter peer ne ars iru Coe ie Ce FS res Ores ad ‏آموزشی خارج می شوند. داده های دارای نویز. اطلاعات ناکامل و .. نمونه هایی از‎ 1 oes ca INU A Can tco” UBM SENIRS * يكيارجه سازى داده ها: در لين مرحله. منلبع جندكلنه داده اى با هم تركيب مى رت * انتخاب داده ها : داده هاى مرتبط به فرايند 18/117110 0363] از ساير داده ۳ در ا ار تار ا 11 ‎١‏ © تبسيل داده ها: داده ها به قالبى قابل استفاده براى 1/1119 03]3] در مى ‎Cans De el‏ ا 0 محاسبه مقادیر تجمعی اشاره کرد. 77 ee Cael pee tafe ieee Pe: Bi ل 0 ل ا ا ا ‎Oo er Ne be RS‏ ا ل ل ا ا ل ‎es ene‏ | اشود. ۱ سرى ابزارهاى بصرى سازى استفاده مى كردد.

صفحه 4:
Interpretation! Evaluation Data Mining 1 Transformation Patterns Transformed Data Preprocessed Data

صفحه 5:
‎Saree Rey‏ تر از داده هاي اولیه که تحت عملیات 0 6 9 و۱ ‎Bata‏ روی اطلاعات اولیه به ادست مى دهد. ‎ne me Oe nel)‏ ا م ام الا ‎Reset‏ اااي انا مورد نظر انجام داد. ‏11109 انجام مى كيرد. مى تواند منجر به ناكار آمدى فرايند 10121130 8383 و استخراج قوانين ناقص و در نتيجه بى ارزش شود. عدم حذف خصايص غير مرتبط مى تواند زمان انجاخم عمليات ۱۷/۳1۳ 2313 را به طرز قابل ملاحظه اى افزايش دهد. الما الا ‎ona‏ ا ا ا ا م ۱ ال ل ال ا 0 مى شود. ‎eit ie‏ ال ل ‏سلسله مراتب مفهومى: روشى براى كاهش تعداد مقادير ممكن براى يك خصيصه ارائه مى دهد. ال ‎Fa‏ ‏تر بوده و در سطح تجریدی بالاتری نسبت به داده های اوليه قرار دارند. ‎۱

صفحه 6:
اطلاعات مورد نياز براى عمليات (1/11711110 0313] * داده های مرتبط با فرایند 1۷11۱0180 ۳8: بانک اطلاعاتی ممکن است شامل تعداد زیادی از رکورد ها باشد که تنها بخش کوچکی از آنها با فرایند 1221 Pees ۱ ear Ces en eee Se eneeed Tal Lare] ‏کر‎ نوع دانشی که باید استخراج شود: نوع روتین هایی که باید بر روی داده های انتخاب شده اعمال شوندء بايد مشخص كردد. دانش زمینه ای : کاربران می ا ار ل ا 0 ‎a ale‏ ا ‎Rens Te EPS‏ * معیارهای ارزیابی دانش استخراج شده: این معیارها ممکن است در زمان اجرای ل ‎a Lal© pene 226 PL] MY Tal‏ 0 ل ل شده اعمال شده و بخش ارزشمند دانش را مشخص نمایند. نحوه ارائه دانش استخراج شده: نمایش دانش و قوانین استخراج شده در قالب های شير ‎Ih‏ سار + درخت تسیر تبرت رد

صفحه 7:
روشهای مختلف ۱۷/۱۳۱۵ ۱2۵12 ل ۱ ‎(Prediction Method) a ,Us b cpFob clyor ,S®‏ #الكوريتمهاى يادكيرى بدون نظارت) (06015 1/1611 106561101101 #در الگوریتمهای یادگیری با نظارت هدف از ۱۱۲۱۲۱9 ۱۵۲۵ مشخص است و می دانیم که به دنبال چه نوع دانشی می گردیم. مانند دسته بندی. در روشهای باه‌گیری بدون نظارت» هدف کاملا تعریف شده نیست. مانند خوشه بندی.

صفحه 8:
روشهای بکار گرفته شده برای ۲560۷6۳۷ ۱۱۵۷۷۱6096 # دسته ل ا ل ل اين روش یک نمونه به یکی از چند دسته از پیش تعریف شده دسته بندی می شود. ‎eerie beth) aye eid‏ یک مقدار متغیر ‎Des oe ee‏ ‎eee eyed ٠.‏ | الل ا ال ف كل ا ا لله يكى ‎ony nee a)‏ لت ا ل 25 ا 1 ‎Si‏ ‏سس و ا ا د ‏الا ا ا ی یر رها ‎ah‏ ا ا ل 2 ل ‎Pee ene ce set‏ كنف" ‏ا ا ا ا ا 0 ال ل

صفحه 9:
Classification: Application 1 «Direct Marketing) ob jb cole® اهداف : * كاهش هزينه ى يست با موقعيت يابى كروهى از مصرف كنندكان . ‎WS 4s)‏ * استفاده از اطلاغات يك محصول كه قبلا توليد شده به منظور استفاده در نمونه هلى جدید . ما با توجه به اطلاعات موجود بدانيم كه جه فردى بيشتر جه جيزهايى را مى خرد و 0-5 ا جمع آورى نمودارهاى آمارى مختلف و اطلاعات مربوط به تعاملات مشترى و شركت

صفحه 10:
Classification: Application 2 «Fraud Detection) ‏شناسايى تخلف‎ © اهداف : * شناسایی موارد کلاه برداری در معاملات کارتهای اعتباری . ‎WS Hs)‏ * استفاده از اطلاعات معاملات کارتهای اعتباری و اطلاعات دارنده ی آن . و و | شخص .

صفحه 11:
Regression 0 ree te eee) nee ینی مقدار فروش یک محصول جدید بر مبنای هزینه تبلیغات ‎Moe le‏ اس سس

صفحه 12:
‎Cae cid‏ نا ‎BAN a ee AC os‏ ‎Oren ena Claas‏ ‎Orivad ord Truck)‏ ‎Seca sat ca aS‏ مجعدصم د رم وت | ‎ne eee‏ ‎Ser cas Re at ce oe‏ ‎Naa‏ ‎

صفحه 13:
Clustering: Application 1 تقسیم بازار(569۳06۳]۵1[0۳0 ۷/۵۲۲۵۲): اهداف : تقسيم بازار به زير مجموعه هاى مستقل .مبتنى بر مصرف كنندكان «جايى كه هر زير مجموعه بتواند به عنوان يك بازار مستقل انتخاب شود . روش كار : a RC I ee ‏ا ا ا‎ ‏د‎ a ee ae SO ‏ا ا‎ ets ee A ‏ل‎ ELI

صفحه 14:
Clustering: Application 2 ©خوشه بندى اسناد (11170 ]115 11 © لاء00]) : اهداف : *_برای پیدا کردن گروهی از استاد که از لحاظ ظاهر شدن کلمات مهم در آنها شبیه وت روش كار : * برای تشخیص عباراتی که در سند به طور متوالی تکرار میشوند . تشکیل یک مقیاس و

صفحه 15:
Association Rule Discovery: Application 1 ۰ 4 ‎renee)‏ زیت وتا زوا و۱ اهداف : ا ‎RCS Jorg‏ ل ا ا 0ل 0 0 روش كار : م ا ال 1 متفاوت نياز شده است - و كشف الكوهاى رخدادهاى مختلف .

صفحه 16:
Data Mining Software INSIGHTFUL MINER Angoss Knowledge ACCESS ARMiner Eudaptics Viscovery Goal TV ID) Viscovery SOMine SPSS CRE CE

صفحه 17:
مشکلات سیستم های ۱۷۱۱۲۱۱۲۱۵ ۱۵12 © دو مشكل اصلى كه اكثر سيستم هاى 1/11111110 31:3(] با آن مواجه ‎ces Oran bem)‏ ان ‎ee aca‏ 6 # وجود عدم قطعیت در اطلاعات ‎MED Cer TINT pd‏ ا ‎MNS pen‏ ۳[ دارند. معمولا روشهای زير استفاده می گردند: ‎SOS eer eee ee Sees ay eas‏ # کاهش حجم داده ها: نمونه گیری » گسسته سازی, کاهش ابعاد و ... * بکارگیری یک ارائه رابطه ای: استفاده از قابلیتهای ذخیره و بازیابی اطلاعات در پایگاههای داده

صفحه 18:
امكانات سيستم های مدیربت يايكاه داده ها الل ا ل ا ل 0 ‎yslare‏ ل ‎MINING‏ 0 عملياتهاى زير را مى توان انجام داد: و و ۱ #طراحی و ایجاد یک زبان پرس و جو همانند -9001 برای پشتیبانی از انجام فعالیتهای مختلف ۱۱۳۱۳۵ ۱۵12 OS Nee ir ee 103163 1/1110 ‏عمليات‎

صفحه 19:
وجود عدم قطعيت در اطلاعات ا هاي عملياتى موجود در سيستم هاى اطلاعاتى معمولا دا رای عذم قطعیت هستند. ا ‎a ide‏ مختلفی در پایگاههای داده ظهور کند ©بطور ‎p veneen yyy Rese Li nts oy‏ الا ا | م فى شولك ل ا را ‎lh ee‏ اتنا يت تسو لكر كاحت ازمر اكارفاى 3 در اثر اتناك تسرك لفرت ا بوستين ل ا ا ا ‎HER concen‏ 02 للد ‎A415 iho‏

صفحه 20:
از تمام دوستانی که با من همراه بودند رال 19

Data Mining By : Alireza Abazari چيست ؟ ‏Data Mining Data Mining ع بارتاستاز اقتباسي ا استخراج دان شاز م جموعه ایاز داده ها ،ب ه ب يانديگر Data Mining ،ف رايندیاس تک ه ب ا اس تفاده از ت کنيکهایهوشمند ،دان شرا از م جموعه ایاز داده ها استخراج م یک ند. يش ينی ب Data Mining از س اختمدلهایت حليلی ،دسته ب ندیو پ اطالعاتو ارائ ه ن تايج ب ا استفاده از ابزارهایمرتبط استفاده م یک ند. برای اينکه الگوريتم Data Miningبتوان د عمل اس تخراج دانش را بخوبی انجام دهد ،نياز به يک سری پيش پردازش ها بر روی مجموعه آموزشی و يک سری پس پردازش ها بر روی الگوهای استخراج شده دارد. مراحل Data Mining پاک س ازی داده ه ا :در اي ن مرحل ه داده های غي ر معت بر از مجموعه داده های آموزشی خارج می شوند .داده های دارای نويز ،اطالعات ناکامل و ...نمونه هايی از داده هايی هستند که با يد پاکسازی در مورد آنها انجام گردد. يکپارچه سازی داده ها :در اين مرحله ،منابع چندگانه داده ای با هم ترکيب می شوند. انتخاب داده ها :داده های مرتبط به فرايند Data Miningاز ساير داده ها جدا می شود .اين مبحث را می توان بخشی از فرايند کاهش اطالعات نيز دانست. تبديل داده ها :داده ها به قالبی قابل استفاده برای Data Miningدر می آيند .از اعمالی که در اين مرحله صورت می گيرد ،می توان به خالصه سازی و يا محاسبه مقادير تجمعی اشاره کرد. :Data Mining ب خشاص لیف رايند ک ه در آ نب ا اس تفاده از روشها و ت کنيکهایخاص ،استخراج ا لگو هایدان شص ورتم یگ يرد. ارزيابی الگوها :تشخيص الگو های صحيح مورد نظر ،از ساير الگو ها در اين مرحله انجام می شود .صحت الگوها بر اساس يک سری معيار های جذابيت سنجيده می شود. بازنمايی دانش :در اين بخش به منظور ارائه دانش استخراج شده به کاربر ،از يک سری ابزارهای بصری سازی استفاده می گردد.  ‏ ‏ ‏ ‏ ‏ کاهش اطالعات کاهش اطالعات عبارت است از توليد يک مجموعه کوچکتر از داده های اوليه که تحت عمليات Data Miningنتايج تقريبا يکسانی با نتايج Data Miningروی اطالعات اوليه به دست می دهد. اين عمل را می توان از طريق حذف خصيصه های غير مرتبط با نوع عمليات Data Mining مورد نظر انجام داد. حذف خصيصه های مرتبط که در اثر اشتباه در ارزيابی ميزان ارتباط آنها با عمليات Data Miningانجام می گيرد ،می تواند منجر به ناکارآمدی فرايند Data Miningو استخراج قوانين ناقص و در نتيجه بی ارزش شود. عدم حذف خصايص غير مرتبط می تواند زمان انجاخم عمليات Data Miningرا به طرز قابل مالحظه ای افزايش دهد. سه روش کلی برای انتخاب خصايص مرتبط با Data Miningوجود دارد: انتخاب پيش رونده :در هر مرحله خصيصه ای که بيشترين ارتباط را دارد ،برگزيده می شود. انتخاب عقب رونده :در هر مرحله خصيصه ای که کمترين ارتباط را دارد ،انتخاب و حذف می شود. روش ترکيبی :ترکيب هر دو روش پيش رونده و پس رونده سلسله مراتب مفهومی :روشی برای کاهش تعداد مقادير ممکن برای يک خصيصه ارائه می دهد، اگر چه داده های خروجی کلی تر بوده و فاقد برخی جزئيات هستند ،اما اين داده ها بسيار ساده تر بوده و در سطح تجريدی باالتری نسبت به داده های اوليه قرار دارند. اطالعات مورد نياز برای عمليات Data Mining ‏ ‏ ‏ ‏ ‏ داده های مرتبط با فرايند :Data Miningبانک اطالعاتی ممکن است شامل تعداد زيادی از رکورد ها باشد که تنها بخش کوچکی از آنها با فرايند Data Miningمرتبط هستند .مشخص کردن اين بخش از اطالعات بايد توسط کاربر انجام گيرد. نوع دانشی که بايد استخراج شود :نوع روتين هايی که بايد بر روی داده های انتخاب شده اعمال شوند ،بايد مشخص گردد. دانش زمينه ای :کاربران می توانند ،با مشخص کردن دانش زمينه ای فرايند Data Miningرا هدايت نمايند ،برای نمونه حدس کاربر در مورد رفتار اطالعات. معيارهای ارزيابی دانش استخراج شده :اين معيارها ممکن است در زمان اجرای فرايند Data Miningو يا پس از پايان ، Data Miningروی دانش استخراج شده اعمال شده و بخش ارزشمند دانش را مشخص نمايند. نحوه ارائه دانش استخراج شده :نمايش دانش و قوانين استخراج شده در قالب های مختلفی نظير جدول ،نمودار ،درخت تصميم گيری و ... روشهای مختلف Data Mining اين روشها بطور کلی به دو دسته زير تقسيم می شوند: ‏الگوريتمهای يادگيری با نظارت ()Prediction Method ‏الگوريتمهای يادگيری بدون نظارت) (Description Methods در الگوريتمهای يادگيری با نظارت هدف از Data Mining مشخص است و می دانيم که به دنبال چه نوع دانشی می گرديم .مانند دسته بندی. در روشهای يادگيری بدون نظارت ،هدف کامال تعريف شده نيست. مانند خوشه بندی. روشهای بکار گرفته شده برای Knowledge Discovery دسته بندی(] : )Classification [Predictiveدر اين روش يک نمونه به يکی از چند دسته از پيش تعريف شده دسته بندی می شود. رگرسيون ( ] :) Regression [Predictiveپیش بینی یک مقدار متغیر مبنی بر متغیرهای دیگر . خوشه بندی ( (] :Clustering [Descriptiveيک دسته داده را به يکی از چند خوشه نگاشت می کند .خوشه ها گروه بنديهای دسته های داده ای هستند که بر اساس شباهت برخی از معيارها بوجود می آيند. کشف قواعد وابستگی( Association Rule Discovery ] :) [Descriptiveروابط وابستگی بين خصيصه های مختلف را بيان می کند. تحليل دنباله :الگوهای دنباله ای همچون سريهای زمانی را مدل می کند. Classification: Application 1 هدایت بازاریابی (:)Direct Marketing اهداف : • کاهش هزینه ی پست با موقعیت یابی گروهی از مصرف کنندگان . • استفاده از اطالعات یک محصول که قبال تولید شده به منظور استفاده در نمونه های جدید . ما با توجه به اطالعات موجود بدانیم که چه فردی بیشتر چه چیزهایی را می خرد و چه چیزهایی را نمی خرد. جمع آوری نمودارهای آماری مختلف و اطالعات مربوط به تعامالت مشتری و شرکت . روش کار : • • Classification: Application 2 شناسایی تخلف (:)Fraud Detection اهداف : • شناسایی موارد کاله برداری در معامالت کارتهای اعتباری . روش کار : • • • • استفاده از اطالعات معامالت کارتهای اعتباری و اطالعات دارنده ی آن . برچسب زدن به معامالت گذشته به عنوان کالهبرداری یا معامالت نسبتا خوب. شناسایی یک مدل برای یک رده از معامالت استفاده از این مدل برای تشخیص کالهبردای با مشاهده ی معامالت کارت اعتباری شخص . Regression پیش بینی یک مقدار متغیر مبنی بر متغیرهای دیگر . مثال : • پیش بینی مقدار فروش یک محصول جدید بر مبنای هزینه تبلیغات • پیش بینی سرعت باد به عنوان یک تابع از دما ،رطوبت ،فشار هوا وغیره . Regression Example •Example training database • Two predictor attributes: Age and Car-type (Sport, Minivan and Truck) • Spent indicates how much person spent during a recent visit to the web site • Dependent attribute is numerical Clustering: Application 1 تقسیم بازار(:)Market Segmentation اهداف : • تقسیم بازار به زیر مجموعه های مستقل ،مبتنی بر مصرف کنندگان ،جایی که هر زیر مجموعه بتواند به عنوان یک بازار مستقل انتخاب شود . روش کار : • • • جمع آوری مشخصات مختلف مصرف کنندگان بر پایه ی موقعیت جغرافیایی . یافتن گروه مصرف کنندگان مشابه اندازه گیری کیفیت گروه با مشاهده ی الگوهای خرید مصرف کنندگان در یک گروه در مقابل الگوهای دیگر گروه ها . Clustering: Application 2 خوشه بندی اسناد (: )Document Clustering اهداف : • برای پیدا کردن گروهی از اسناد که از لحاظ ظاهر شدن کلمات مهم در آنها شبیه به هم هستند روش کار : • برای تشخیص عباراتی که در سند به طور متوالی تکرار میشوند .تشکیل یک مقیاس همانندی بر پایه ی فراوانی عبارات مختلف .استفاده از مقیاس در خوشه بندی . Association Rule Discovery: Application 1 مدیریت دارایی(: )Inventory Management اهداف : • یک شرکت تعمیر وسایل مصرف کنندگان خواستار پیش بینی ماهیت تعمیرات مصرف کنندگان است تا همیشه ماشین های سرویس دهنه اش را مجهز نگه دارد . • پردازش داده ها – ابزارها و قطعه هایی که که در تعمیرات قبلی در مکان های متفاوت نیاز شده است – و کشف الگوهای رخدادهای مختلف . روش کار : Data Mining Software       INSIGHTFUL MINER Angoss Knowledge ACCESS ARMiner Eudaptics Viscovery Goal TV MDR  Viscovery SOMine  SPSS مشکالت سيستم های Data Mining دو مشکل اصلی که اکثر سيستم های Data Miningبا آن مواجه هستند ،عبارتند از: حجم باالی داده های آموزشی وجود عدم قطعيت در اطالعات برای رفع مشکالتی که اين سيستم ها در برخورد با داده های حجيم دارند ،معموال روشهای زير استفاده می گردند: طراحی الگوريتم های سريع :کاهش پيچيدگيها ،بهينه سازی ،موازی سازی کاهش حجم داده ها :نمونه گيری ،گسسته سازی ،کاهش ابعاد و ... بکارگيری يک ارائه رابطه ای :استفاده از قابليتهای ذخيره و بازيابی اطالعات در پايگاههای داده امکانات سيستم های مديريت پايگاه داده ها برای بکارگيری امکانات سيستمهای مديريت پايگاههای داده به منظور افزودن قابليت ، Data Miningمجموعه عملياتهای زير را می توان انجام داد: ‏بکارگيری زبان SQLو ساير اشياء پايگاههای داده برای افزودن قابليت Data Miningبه سيستم مديريت پايگاه داده ‏طراحی و ايجاد يک زبان پرس و جو همانند SQLبرای پشتيبانی از انجام فعاليتهای مختلف Data Mining ‏توسعه مجموعه ای از عبارات به منظور پوشش دادن مجموعه عمليات Data Mining وجود عدم قطعيت در اطالعات داده هاي عملياتی موجود در سيستم های اطالعاتی معموال دارای عدم قطعيت هستند .عدم قطعيت می تواند به اشکال مختلفی در پايگاههای داده ظهور کند. بطور کلی عدم قطعيت در سيستمهای پايگاه داده به دو دسته تقسيم می شوند: ‏اطالعات ناکامل (مقادير نامشخص) :منظور خصيصه هايی است که مقداری برای آنها ثبت نشده است. ‏اطالعات ناسازگار :اطالعاتی که در اثر اندازه گيری نادرست يا بوجود آمدن نويز در داده ها ايجاد شده باشد و مقادير ثبت شده با مقادير واقعی برابر نباشند. با تشکر از تمام دوستانی که با من همراه بودند سوال ؟؟؟

51,000 تومان