مروری بر داده کاوی
اسلاید 1: مروری برداده كاویمسعود مشتاقی
اسلاید 2: سرفصل موضوعاتمعرفیالگوريتم های داده كاوی معرفی قانون كاوی معرفی خوشه يابیمعرفی كلاس بندی
اسلاید 3: معرفیتلاش انسان از ابتدا برای تحليل مشاهداتافزايش حجم اطلاعاتكتابخانه های الكترونيكیاينترنتاطلاعات مالی و سپرده گذاری و تجارت و ..كشف دانش در پايگاه داده ها (KDD)
اسلاید 4: معرفی (ادامه)مراحل كشف دانش در پايگاه داده (KDD)Datawarehouseانتخابوپردازش اوليهداده كاویتصديق درستیتوصيفدانشحافظه سيستمهوش سيستم
اسلاید 5: معرفی (ادامه)Data warehousing : به فرایند جمع آوری و تمیز كردن دادهای تراكنش ها و مهیا كردن آن برای آنالیز و سیستم های پشتیبان تصمیم می باشد.انتخاب و پيش پردازش اوليه : فرآيند بهبود كيفيت داده های موجود بر اساس روش های زير:تميز كردن داده ها به منظور نرمال سازی ، خارج كردن نویز ، كنترل داده هاي گم شده ، كاهش redundancy و غیره Data Integration : شامل يكي كردن داده های جمع آوری شده از چند منبع غیر همگن.Data Reduction and Projection: انتخاب جزییات مفید كه نشان دهنده داده های ما باشند، كه معمولا با توجه به كاري كه مي خواهیم انجام دهیم صورت مي گیرد.توصیف و ترجمه : شامل Visualize كردن و توصیف الگو های كشف شده می باشد.تصديق درستی
اسلاید 6: الگوريتم های داده كاویمدل : تابع مدل Model Function)) و فرم نشان دادن (Representational form) آن مدل شامل پارامتر هایی است كه باید از داده ها با توجه به تابع انتخاب شده و به وسیله فرم یا ابزار نشان دادن محاسبه شوند.شرایط دلخواه : یك پایه برای برتری دادن یك مدل يا مجموعه پارامتر ها بر دیگری بر اساس داده ها.الگوریتم جستجو : مشخصات يك الگوریتم جستجو برای پیدا كردن یك مدل ، الگو یا پارامترهای خاص با داده ، مدل ها ، و شروط داده شده است.
اسلاید 7: توابع مدلكلاس بندی (Classification): تابع مدل یك آيتم داده ای را در یك سری كلاس های از پیش تعریف شده كلاسه بندی می كند. (Supervised Learning)رگرسيون (Regression): قصد این تابع تصوير كردن یك آيتم داده به یك مقدار واقعی پیش بينی است.خوشه يابی(Clustering): يك آيتم داده ای را به یكی از چند خوشه تصوير می كند كه اين خوشه ها گروه های طبیعی هستند كه بر اساس مثلا متريك های شباهت ايجاد شده اند. هدف اصلی پيدا كردن نظم در داده ها مي باشد. (Unsupervised Learning)توليد قانون (Rule Generation): Association rule mining and Dependency modeling كه دومی به كشف وابستگی های قوی بین متغیر ها به كار مي رود.
اسلاید 8: توابع مدل (ادامه)خلاصه و فشرده سازی (Summarization and condensation): یك توصیف فشرده از داده ها به ما می دهد.آناليز دنباله ها (Sequence Analysis): الگو های دنباله مثل سريهای زمانی را مدل می كند.مثال : كشف آنومالی در سيستمپيش بينی وضع هوا تشخيص تومور در عكس های مغزیكلاس بندیرگرسيونیخوشه يابی
اسلاید 9: كاوش قانونهدف اصلی :پيدا كردن قوانين منطقی كه بر داده ها حاكم می باشدروش های اصلی :Association Rule Mining : به صورت عبارت هایي است به شكل X=>Y كه X و Y زیر مجموعه از تمام ویژهگيها هستند. و این ادعا با درجه اعتبار بزرگتر از c درست باشد.Classification Rule Mining: يك پروسه كنترل شده كه از يك سری مجموعه داده برای آموزش استفاده می كند و هدف پيدا كردن قوانين در داده هابه منظور پيش بينی كلاس از پيش تعريف شده برای يك سری داده تستی می باشدDependency Rule Mining : يك پروسه كنترل شده است كه ویژهگيها را به دو قسمت هدف و غیر هدف تقسيم مي كند و قسمت غير هدف فقط می تواند در قسمت شرط باشد ولی به دنبال قوانينی هستيم كه شامل ويژهگيهای هدف باشد.
اسلاید 10: خوشه يابیهدف اصلی :كاهش فاصله بين بردار های داخل يك خوشه و افزايش فاصله بين خوشه ها می باشد.چالش های اصلی: انتخاب تعداد خوشه مناسب ، تعريف معيار فاصله و تشخيص خوشه هايی كه شكل منظم ندارند ، می باشد.انواع برخورد ها :Partial)Sequential): یك بخش اولیه درست می كند و بعد بوسیله از روشهای تكرار شونده براي بهينه كردن هدف كار استفاده می شود.Hierarchical : بدين صورت كه ابتدا كل داده ها را در يك خوشه قرار می دهد سپس اين خوشه را در چند گام می شكند تا به n كلاستر برسد.بر اساس بهينه سازی : روش های K-Means و توابع Density
اسلاید 11: كلاس بندیهدف اصلی :پيدا كردن روشی خاص و پارامترهای روش به گونه ای كه علاوه بر خطای كم قابليت عمومی شدن را نيز داشته باشد.روش های اصلی در كلاس بندی :درخت تصميم : فضاي تصميم را به تكه هاي ثابت مي شكند.Probabilistic or Generative Model : از روش های آماری معمولا“ مبتنی بر تئوری Bayes استفاده می شود.Nearest Neighbor Classifiers: كمترین فاصله را نمونه ها نشان دسته (Prototype) ها محاسبه می كند.رگرسيونی : مي تواند چندجمله ای باشد مثلا“ شكل : aX1+bX2+c=Ci باشد.
اسلاید 12: كلاس بندی (ادامه)ادامه روش های اصلی در كلاس بندی:شبكه های عصبی : يكی از پركاربردترین روشهای محاسبات نرم ( Soft Computing) ساختار ANN شامل يك سری گره می باشد كه با تعدادی رابط جهت دار به هم متصل مي باشند. خروجی تمام گره های شبكه خاصيت بستگی به يك سری پارامتر قابل تغيير مرتبط به اين گره ها دارد.شبكه های RBF : از مدل هاي عمومی تشخيص تابعی كه در كلاس بندی نيز استفاده مي شود. خصوصيات نزديك به شبكه های عصبی دارد ولی از نظر رفتار شفاف تر است.Support Vector Machines : ايده اصلي اين است كه با يك تصويرغير خطي داده هايی را كه نمي توان با يك مرز تصميم خطي در فضاي خصوصيات جدا كرد را به فضايي با بعد بالاتر ببرد كه در اين بعد به توان يك مرز تصميم خطي براي داده ها رسم كرد.
اسلاید 13: با تشكر
اسلاید 14: منابعMitra, Sushmita : Data mining: Multimedia, Soft Computing and Bioanformatics. Published by John Wiley & Sons, Inc.2003 ISBN 9812-53-063-0Daniel T. Larose : Discovering knowledge in data : an introduction to data mining . Published by John Wiley & Sons, Inc.2005 ISBN 0-471-66657-2Mehmed Kantardzic : Data Mining: Concepts, Models, Methods, and Algorithms. Published by John Wiley & Sons, Inc.2003 ISBN 0471228524Abraham Silberschatz : Database System Concepts fifth Edition, Ch. 18 Published by McGraw-Hill. 2006 ISBN 007-124476-XRichard O. Duda : Pattern Classification . Published by John Wiley & Sons, Inc. ISBN 0476-05669-3Corrina Cortes, Veladimir Vapnik: Support Vector Networks,1995 Machine Learning
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.