کامپیوتر و IT و اینترنتعلوم مهندسی

بازيابی كارا و مؤثر اطلاعات وب با استفاده از دستاوردهای يادگيری ماشين: طراحی و تكامل روشهای يادگيری تقويتی در كاوش متمركز

صفحه 1:
بازيابي کارا و موّثر اطلاعات وب با استفاده از 2 دستاور دهاي یادگیری ماشین: طراحي و تکامل انشا نی ام کی روشهاي بأًدكيري تقوبتي در کاوش متمرکز 2 جلسه دفاع از بایان نامه کارشناسي ارشد دانشکده مهندسي کامپیوتر دانشجو: حمیدرضا مطهري نژاد استاد راهنما: دکتر عبداله زاده بارفروش PP etedt oad CPPevtve ‘ePorwatos Retrteud ‏لیوا‎ Darker Learatry @pprowkes: Orestes ‏ومشاص 2 لج‎ oP RetPorcewed Learctay oo Pond Oras

صفحه 2:
فهرست مطالب مقدمه دستاوردهای این پروژه 8 کاوش متمرکز وب + کاوش متمرکز وب با استفاده از بادگيري تقويتي + طراحي و پیاده سازي کاوشگر متمرکز يادگيري تقويتي * نتایج حاصل از پیاده سازي و ارزيابي 9 توسعه مکانیسم هاي پرس و جو در کاوشگرهاي متمرکز » معرفي “سلسله مراتب مفهومي با دامنه خاص ‎(WOOL)‏ ™ * ارائه الگوريتمي خودکار ,000 - پیاده سازي و ارزيابي آن * ارائه معماري یکبارچه براي موتورهاي جستجوي با دامنه خاص © نتيجه كيرى و بيشنهادات آينده 9 مقالات ارائه شده حاصل از پروژه

صفحه 3:

صفحه 4:
کاوش متمرکز وب © كاوش متمركز وب به عنوان راه حلي براي با يابي اطلاعات وب « صفحات مربوط به يك موضوع و با از نوع خاص را جستجو و كبي کرده؛ شاخصبندي و تكهداري مي @ نتایج مورد انتظار از کاوش متمرکز رین صفحات مربوط با کاوش کمترین ابرپیوند نامربوط

صفحه 5:
معماري کاوشگرهاي متمر کز

صفحه 6:
دستاوردهاي این پروژه 9 کاوش متمر کز وب با استفاده از يادگيري تقويتي © توسعه روشهاي --ج0 براي محاسبه مقدار © يادكيري تقويتي و بيشنهاد روشهاي جديد 6 استفاده از دسته بندي كننده ماشينهاي بردار بشتيبان براي اولين بار در كاوشكرها و مقایسه با نتایج قبلي " @ ارزيابي تاثیر مقادیر متفاوت پارامترهای يك کاوشگر يادگيري تقويتي در کار آيي جرج مانند متن اطراف ابربیوند؛ تعداد دسته ها در دسته بدي کننده و مقدار گاما در © توسعه سر جوی کاربر در کاوشگرهاي متمرکز 4 معرفی ابزار "سلسله مراتب مفهومی با دامنه خاص" و اتفده از آن براي توسعه خودکار پرس و جوي کاربر در معماري -600 009 » طراحيء» ‎asl‏ سازي و ارزيابي الكو ربتعي جديد براي يادكيري "سلسله مراتب مفهومي با دامنة خاص"با از اسناد آموزشي # پیشنهاد يك ‎he‏ وه (با ارائه جار جوب فرمال ) براي موتهرهاي جستجوي با دامنه خاص که از سلسله مراب مقعومي با دنه خاص و آستدلال بر پیه مارد براي يادگيري از جستجوهاي قبلي استفاده مي كن

صفحه 7:
© يادكيري تقويتي © به جارجوبي براي يادكيري خط مشي بهينه از محاوره با يك محيط بويا و با مكانيسم باداش و جزا اشاره دارد. ‎S. set of available States, A: set of available Actions,‏ ‎T: SXA-S, transition Function‏ ‎R: SXA5R, reward Function,‏ ‎m: SA, Leamed Policy‏ Tz Received reward in tstep after t=0 L starting from s,___Y discount ___] factor, V*(s) =max/" (5) = IC*, Optimal Policy, which maximizes the values of states, for all state s. V*; Value Function of Optimal Policy Q*: expected return of taking action a in state s, and thereafter A(s.a) =maxJ" (sa) | sees a 7 ‏ده > وله‎ + 0۹(

صفحه 8:
يادگيري تقويتي براي کاوش متمر کز 8 خواصي از يادگيري تقوبتي که آن را براي کاوش متمرکز مناسب ‏ مي سازد: * توانايي مدل کردن پاداشهاي تاخيري (آینده) حاصل از تعقیب ابرپیوندها © امكان يادكيري از سعي و خطا - مناسب براي محيط هاي بويا و با تعداد داده هاي آموزشي کم « کار آيي به صورت پاداش در طول زمان قابل اندازه گيري است 9 مزیت کاوشگر يادگيري تقويتي بر کاوشگر متمرکز معمولي * امکان در نظر گرفتن پاداش هاي آینده يك ابرپیوند در اولویت کاوش آن

صفحه 9:
نگاشت کاوش متمرکز به يادكيري تقويتي 9 توابع ۲ و ‎)٩‏ مشخص هستند « پاداشهاي آني ‎Qewad Puccios)‏ :6) * سند مرتبط حاصل از كليك کردن ابرپیوند © پاداشهاي آینده (ممسح عد :0) * سند (اسناد) مرتبط حاصل از تعقیب ابرپیوند در چند سطح بعدتر 9 *عمل": تعقیب (پیمایش) يك ابرپیوند خاص ((ه بب« :0) عسه) * تعداد اعمال در اختیار» پویا و بزرگ ۵ احالت" شامل (صد < مد :6) © مجموعه اسناد هدفي است که باید کاوش شوند. * مجموعه پيوندهايي که یافته شده‌اند.

صفحه 10:
نات کوش متمر دز بادگیری قويتي ادامه © مشكلات « فضاي حالات بسيار بزرك است. » تعداد اعمال در اختيار هم بسيار زياد است © فرض هاي کاوشگر يادگيري تقويتي مسبت براي سادگي و تعمیم مساأله: * "حالت" مستقل از اینست که کدام اسناد هدف تابحال دیده شده‌اند. ۴ تبدیل تمامی حالات به یک حالت © ميزان ربط اعمال (ابربيوندها) به موضوع (هدف) مي‌تواند با کلمات در همسايكي" ابربيوند متناظر با هر عمل مشخص شود. " موتوان بين ابربيوندها تعميم انجام داد و آنها را بوسيله متن اطررافشان با هم مقایسه کرد 3

صفحه 11:
طراحي کاوشگر متمرکز بادگيري تقويتي 8 امکان بادگيري برخط © طراحي کاوشگر يادگيري تقويتي در این پروژه * فاز آماده سازي بستر آزمایش و پیش پردازش * فاز يادگيري * فاز آزمایش

صفحه 12:
© عدم امكان استفاده از بايكاه هاي وب ايراني © بستر آزمايش * پایگاه هاي وب بخش هاي علوم کامپیوتر چهار دانشگاه " ‎@vstvn. Brows Pa =‏ 9 ‎OCOwes‏ پسوند صنحات وب کپی شده پسوند فایلهای صبنحات هدن (مقاله های تحقیتی) Pe, pox, ۳2 ph, pA نام دانشگاه دانشگاه بوستون دانشكاه سرون دانشگاه پیتربورگ دانشگاه كاليفرنيا - دیویس مشخصات بستر آزمایش تعداد صفحات ‎HTML‏ 7365 10405 4104 1170 تعداد ابرييوندها 44347 72600 12811 2731 تعداد مقالات

صفحه 13:
طراحي کاوشگر یادگیری تقويتي (معماري بخش آماده سازي بستر آزمایش و پیش پردازش ) 9

صفحه 14:
طراحي كاوشكر يادكيري تقويني ” (معماري بخش يادكيري]”

صفحه 15:
دسته بندي کننده هاي متن 8 دسته بندی کننده پیز ساده (مورد استفاده 39 ‎(Cora‏ ‏* روش آماري براي دسته بندي متن (احتمال تعلق يك متن به هر دسته) * از روش بیز استفاده مي کند و کلمه "ساده" به اين معني است که احتمال رخداد کلمات در هر دسته و سند را مستقل از هم در نظر مي گیرد. * روش شناخته شده و پر کاربرد براي دسته بندي متن © دسته بندي کننده ماشينهاي بردار پشتیبان (600) © بر اصل "حداقل سازي خطاي ساختاري" در نظریه يادكيري محاسباقي تکیه دارد * یافتن قضیه ۲ که حداقل خطای مطلق را تضمین میکند» معادل یافتن چند سطحي است که داراي حداکثر حاشیه با بردارهاي پشتیبان در داده هاي آموزشي است

صفحه 16:
دسته بندی کننده های متن (SVMS owes ‏(دسته بني‎ © دلايل تناسب ماشينهاي بردار پشتیبان براي دسته بندي متن « ابعاد زياد فضاي ورودي - راه حل -(500)به تعداد ويزكيها (صفات) بستكي ندارد. @ تعداد کم ویز گيهاي غیر مرتبط * نك بودن بردارهاي اسناد © ماشينهاى بردار پشتیبان ملع » روش ۲6000 يك نوع خاص از -(06)است که هدفش يادگيري از تعداد معدودي داده آموزشي است 5 59 #_ در دسته بندي متن نسبت به الگوریتم -2000)به کار آيي بهتري دست یافته است اج سس به جاي استقراء (مسح1) استفاده میکند در استقراء يادكيرنده سعي ميكند تا به طريقه استقراء يك تابع تصميم را اهر ی | يعهاي داده ها دسته بندي کنیم. این مساله. هدف ‎as‏ ات

صفحه 17:
روشهاي محاسبه 0 در این پروژه ۶ روشهاي توسعه بافته از مد * روش آني (2 دسته) 0 ار و ۱۳ * روش فاصله ۰ ‎OB tke bok is 0 paper ts Q uke bebe‏ * روش آینده (3 دسته) © آینده (4 دسته) @ آینده (5 دسته) @ آینده (موازي) * تعداد مقالات تحقيقي 6 روشهاي جدید * روش برش مقدار © تغيير خط مشي * روش مکاشفه آي صمت ‎Cdrukties Q udues Por Pour choses - kreedtate,‏ = موی ,طلسم ۳۰ ) > وتو رون زد ‎Por two-steps, zery Por woe‏ موی ,موس ‎Por‏ 32 Cue (Pow cheves):

صفحه 18:
طراحي کاوشگر بادگيري تقويتي (فازآزمایش) . 7 Atext= 5 ۳ ۳-1

صفحه 19:
پیاده سازي کاوشگر بادگيري تقويتي © شرایط سخت افزاری * پنتیوم 10 با پردازنده 0-۵/0 و با مقدار سح( برابر 512 مکابایت و ديسك سخت40 گیگابایت 8 سیستم عامل و زبان برنامه نويسي @ سیستم عامل لینوکس و زبانهاي بو و ن تحت این سیستم عامل 8 مولنه های آماده مورد استفاده ۳ ‎Packene (OkesPiruia,...) ©‏ بو بو - نیج ۰ سل صو0 سا ‎Duckies OkesPer ۴‏ و0 بو + کدهاي غیر تجاري ‎Ona‏

صفحه 20:
پیاده سازی کاوشگر بادگيري تقويتي (تعداد آزمایشات انجام شده)” عامل تاثیر گذار ضریب تاثیر تعداد روشهاي پایه 8 مقدارهای مختلف گاما (1/0و 8/0 5/0) تعداد دسته های آموزشی (3و 4و 5) انواع متن در همسایگی (نزديك, مرتبط و تمام صفحه) انواع دسته بندي (بیز ساده و ماشینهای بردار پشتیبان) تعداد دانشگاه ها ( پايگاههاي وب بوستون برون» پیتربور گ و کالیفر نیا -دیویس) 8 تعداد آزمایشها با تمامی تر کیب ها: 1200 آزمایش ۶ تعداد آزمایش انجام شده در این پروژه + 213*4=852 * روشهاي جدید: 30 آزمایش ‎oo‏ | د | ده | تم | حر ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 21:
پیاده سازی کاوشگر يادگيري تقويتي «اجرآي خودکار کاوشگر © مدير اجرا et Test Dawe ‏.عاد ما سوق‎ زر بل م0 Qoke werep of G-Ockes of rack ohare ...: ] boyes chester (Robo) cod tetil tic port © © ©... (Rus he test woken ‏واه مرو سم‎ Prat COOs chester (racbow wit ) mi dPPerect port (OCP) Quo he test wie SOOs chee Pier

صفحه 22:
پیاده سازی کاوشگر بادگیری تقويتي (بر نانقه تحلیل نتایج و تولید نمودارها) a; 82 03 04 os 08 oT 0۵ ۶ Line Taveree ۳ “an Reine Msn For

صفحه 23:
نتایج پیاده سازی (مقایسه دسته بندي کننده هاي 313" و 5۷5 در بستر آزمایش) ‎Ouwbere (Byeraqed over Puctversittes)‏ عو0 وو0۳ ‎atu ‎Three ‎ ‎۲ ‎9" ‎ ‎ ‎wan 00 wan OOD» 0 ‏جوم‎ ‏و‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 24:
معبار اول: درصد مقالات بافته شده به درصد صفحات کاوش شده معیار دوم: میزان پاداش دريافتي در طول اجرا توسط کاوشگر Integral Sum = 0 // Calculating integral (space above curve) For index = 0 to Paper_number do If (index/Paper Number <= Percent) Integral Sum = Integral Sum + Link Number[index] // Calculating integral of under curve Integral Sum = Univ Link Number * Paper Number - Integral Sum // Calcultaing the percent of overall achieved reward Integral Sum = Integral_Sum / (Univ_Link Number * Paper Number) معیار سوم: تعداد مقالات تحقيقي کاوش شده تا درصد خاصي از کاوش

صفحه 25:
مقایسه تأثیر دسته بندي کننده در کار آيي کاوشگر يادگيري تقويتي - معیار اول

صفحه 26:
بادگيري تقويتي - معیار دوم 6096 سا سس 0 6016 مده موم ©9760 906 و ‎awd‏ 6[ ۵4 _سد و ‎awa‏ ‏70.088 29.900 وج و ‎nw0.9 [0 nw0.9‏ 9[ سهء 200 90 ‎nw 00 |‏ 9 وه سو| وووود| وه مد موم ‎bod [72000‏ و ومع 7000[ وه 70,080 76,907 ‎wos |e se praage [wos |e‏ 0 96.008 جوو‌ود و ‎wos‏ و ومع | و ‎wos‏ ‎Ir‏ ۲ ‌ 20,708 همووه + ‎loa 9‏ 7 هد - -00 | ههجومم ‎oa‏ ‏©06.© 69.008 وووو2 ‎os 9‏ 3 29 9 09 6016 سس 70.060 ۶ ۵4 _سد 20.700 و ۵8 سدء 9۵ج وه مد 20.700 و ‎wos‏ ‏666 | _ وه 20 wos |e ‏وموم‎ oa 9 76.909 ose |e

صفحه 27:
مقايسه قاثير مقدار کاما در کار آبی ‎pols‏ Crows 10% 66.660 9 مه ‎eed‏ هوجو ‎ee‏ 60.7008 e مهو وو £02 66.666 00 0 6 96.069 Be PRET 0 مه 0 سم ‎wo 0.00‏ سح 0.0004 —| <2 0.000 0.00 موه ۹ 4 0 مس« 0 مد 0 مد aw. &_0.0000 0.000 we _0.00 4ب باد گيري تقويتي - ادامه: 6 سوق 0 سم 0 ۵00۵ سو ‎ee‏ 0 وووموجو © 00 سو 0و و 00,ه سوه 0و 66 سوه مججمووو 9 ۵0000 جوموووو ‎|e‏ ۵0۵0 و ,وه 9 0 ووووو,ووه 0 لحب ‎Gas Ree‏

صفحه 28:
مقایسه تاثیر تعداد دسته ها در کا رآيي کاوشگر يادگيري تقويتي Okes Lot SO% 2900 ‏رسد‎ ee 70.080 ‏رسد‎ 6 70.70? wo Pe 4 2909 ‏سرد‎ 76 ‏مهم‎ ‏حرط‎ oe ‏ومع‎ ‏جرد‎ or 27.8680 ‏وا‎ ee 00 0 2290999 ‎a‏ _سد عممهم 66 6 عومد 99990 ‎wo Pe ee‏ ‎7e.e@0860‏ | 0 1 | 7 ایا ‎٩6666‏ ‎wb Pow 9‏ 7 000۵2 وه عه يها 72-69 وه سا سس سس 0 06 90.666 3 رسد 76.0068 @ حمارسد 77.0708 ove Pur 9 006666 | سرد ©066.©هم ( هم حرط ۲ ©666. 6م سح ‎dove 00‏

صفحه 29:
مقایسه تاثیر متن همسايگي در کار آيي کاوشگر ياد گيري نقويتي ‎Pex bot 6‏ 20 هم رسد 2۵00 66 ام رسد 22909 ‎wo Ad ee‏ 80.000 66 رد 2۵0 66 اسرد 2099 28 اب 70.200 ‎Ore 5‏ سس = ‎ ‎ ‎ ‎Text IDO% 999906 ‏مهم سور‎ ٩67007 ‏ام سم‎ ee 99000 ww Ad er 76.4080 how “Tea, 5 66.7006 bol 9 96600 J] yak ‏موه‎ ۶ 2۵9700۵ ww 90 ‏بسچ‎ ‎ ‏6 4 وموووجه جع رسد ?70.2807 وه ام رسد 20ص 99 رسد عمووووه 169 رل 60009 2 اسر 720 ‎6e‏ فرب 0.998060 ‎cod er‏ و ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 30:
مقایسه کار آیی کاوشگرهاي يادگيري تقويتي بآ جمیع پار امترها Drtod OO% وووومم وه ی هرد 9 ,ره رسد وموووه وه 6 490.6 9 6 رمد جاب بيات يانه 8 0.9 ره رسد 206 مسدزه رسد ۱ 9 0.8 رو رسد ه06 9 سره رسد ممم م م سره رسد ‎O7.PPOFO‏ ره رسد Drtod IO% مووو6,ج ‎bP 0.9 8‏ 5.000 6 مسر رس 569000 ww PP POS 6 ©6666. 66 ‎es‏ 06ر6 رس 9909 6 سدع © سود 990906 696 رو رد 9990960 ومسرو رد 0 .یره رسد 6960 شرم عه

صفحه 31:
مقایسه کار آيي کاوشگرهاي يادگيري تقويتي با جمیع پارامترها-ادامه 6 لاه( 60 هرح م مره ‎PO.‏ یه رد ۳ 0 °°. 890072 vbr PsbS 8 wb 9 pert. ‏وومجو دج‎ © رل م6000 0م 0 اب( 9 رسد 00,90999 یس ورد 68999 ?0 6 رسد هوجو ۵ 0 ومممو وه 8 65699 9 68.2870? 5 مسر هی رسد یس وود سرد ۰ هه رس

صفحه 32:
روثی مکاشفه اي براي بهبود کا رآيي کاوشگر باد كيري تقويتي مب 0.0088 9 0.0088 9 0229 0.0000 0.0089 9 224 e 0.0089 0000 0.6006 o. need 9 000 9 ووموه 9 ۵0096 2 وه 2 0.0089 9 0006+ 3 0.00840 8 0.0090 @ord Derk 0.4960 9 0.0788 9 0.0780 9 0.06©© 9 0.0980 e 0060© 9 0 0.0060 3 0.0008 0.0088 ord (MH

صفحه 33:
روثی مکاشفه اي براي بهبود کا رآيي کاوشگر یادگيري تقويتي - ادامه

صفحه 34:
بهبود کا رآيي کاوشکر ‎Poet‏ ‏تغییر خط RL Crawlers with Policy Change (SVMs ancl NB classifers exchenge) 80 6020 SC ‏نا‎

صفحه 35:
مقایسه کاوشگرهاي بادگيري تقويتي» متمر کز و اول-سطح RL Crawler Resuit Comparison 08 3 Bos Soa 02 01 02 03 +04 05 08 of 08 08 Links Traversed

صفحه 36:
توسعه مکانیسم هاي پرس و جوي وب در كاوشكرهاي متم ركز © مشاهده واقعيت ها و كمبودهاي زير @ تطابق دقيق كلمات كليدي در يافتن جواب برس و جوي كاربران 6 عدم استفاده از دانش حوزه مورد جستجوي کاربر جواب دادن به برس و جوي كاربران © عدم استفاده از دانش علایق و پیش زمینه هاي كاري و علمي کاربر 8 راه حل پيشنهادي * _توسعه پرس و جوي کاربران با استفاده از يك سلسله مراتب مفهومي با دامنه خاص مزاياي راه حل پيشنهادي © فرآيند توسعه برس و جو يك فرآيند خودكار است © كاربر نيازي به فراهم آوردن اسناد مرتبط به موضوع به عنوان ورودي سيستم فدارد. ‎aly‏ مراتب مفهومي با دامنه خاص از طريق يك فرآ بند آماري بر روي متن ياد كرفته مي شود

صفحه 37:
سلسله مراتب مفهومي با دامنه خاص 8 سلسله مراتب مفهومي (0) چیست؟ + ,0/1 مجموعصاواز کرت هاومفیوماً مرتبطلسکه در بانترتیبجزیوتب hos ‏سلسله مراتب مفهومی با دامنه خاص‎ © ‏ست‎ ١ ‏نوعي از سلسله مراتب مفهومي که شامل لغات فني يك دامنه خاص‎ ۰ ‏دستاورد این پروژه در اين زمینه‎ 8 »_طراحي و پیاده سازي الگوریتم مبتتي بر يادگيري براي ساخت خودکار ‎O6CL‏ or

صفحه 38:
7 -مثلل

صفحه 39:
مراحل الگوریتم ساخت خود کار 15017 Gerd Process سح له ‎(Prockry‏ ‏الب حور ‎Dords‏ (Piercdhay Dercos ‏امس‎ ‎oF separated ord Orawtery ad Pre- Provessieg | Ouutag the setevied Wierarchy od Pre Provesstag he ances Prot Provess ‏بل‎ high weighted words (P10) ۸۳۳۱۵۴: ‏همه( و(‎ ‘werse Ooanvedt Prequeay 6ه

صفحه 40:
مرحله کاوش و پیش پردازش © كاوش سلسله مراتب انتخابي (-02) و كپي کردن اسناد آموزشي حذف بخشهای ثابت (سرآیند و زیر نویس) و نام مولفان براي ‎(Cuder’, “RePerewes”, ...words”) OY bio‏ 8 بستر آزمایش 4 100 سند آموزشي از هر گره مسبت كپي و به عنوان مجموعه آموزشي استفاده شد * هو سند اطلاعاتي راجع به يك مقاله در موضوع گره (نام» ‎onde‏ نلم مراجع و سس مقالاتي که به این مقاله اشاره کرده اند)

صفحه 41:
اولین پر دا زشی (یانتن کلمات با بیشترین وزن 1۲۳1۳ در مجموعه اسناد آموزشي گره) تعداد ۱-25 کلمه با بالاترین وزن 1۳1۳۳ براي دسته "هام1 "Mining لسك 227 22 4 0.0062189 0.0060270 0.0053060 2221 0.0047303 1 ع سب ‎Ore‏ 1 لت 0.010879 2 0.010284 1 0.007768 0 0.007652 1 0.007552 8 0.007429 3 0.007410 5 222255 4 اج 0.0483205 0.0460734 0.0335740 0.0300237 2216 228 0.0247404 0.0184948 ۱

صفحه 42:
دومین پردازش (یافتن زوج كلمات با بيشترين وزن ويج رین 0.0693333 0.0609187 0.0642788 0.0587437 0.0589771 0.0683995 0.0621446 0.0620216 0.0602633 0.0583686 0.0950729 0.0794421 تعداد 225 ۱ زوج کلمه با بیشترین وزن رخداد همزمان در کره "بجممه موی" Ore Data Mining Data Data Data Data Mining Data Data Mining Data Mining رخداد همزمان) ‎Oot‏ ۷ 09 ‎Geographic‏ | 0.0629474 ‎geographic‏ | 0.0589019 ‎integration‏ | 0.0571912 ‎Query‏ | 0.0591086 ‎Relational‏ | 0.0590085 ‎Spatial‏ | 0.0586942 ‎Spatial‏ | 0.0609724 ‎technology‏ | 0.0736354 ‎Tools‏ | 0.0668675 ‎Users‏ | 0.0901771 ‎warehouse‏ | 0.0783960 ‎warehouses‏ | 0.0743458 0.0716238 Orne data Mining Mining Mining data mining mining data mining data mining data mining مه ‎‘Aggregation‏ ‎Aggregation‏ ‎Association‏ ‎Baskets‏ ‎Clustering‏ ‎Clustering‏ ‎Correlations‏ ‎Cubes‏ ‎Cubes‏ ‎Dbminer‏ ‎Dbminer‏ ‎Dimensional‏ Dimensional

صفحه 43:
سومین ف رآیند (یافتن عبارات به جاي کلمات) او (0.00020561 59 (0.00020561 59 (0.00020561 59 (0.00019919 04 ۳ 49 (0.00019276 49 (0.00019276 49 تعداد 25- ۱۱ عبارت دو کلمه ای با الانرین احتمال رخداد در کره "یسمبب ‎"de‏ و ‎mining‏ ‎application‏ Level association attribute oriented Base mining learning algorithm inductive learn discovered association Oeiht 000037910 43 7 .ه22 68 7ش .ه22 68 (000032127 48 22, 2 18 7ه 08 (0-21 99 0.00022489 Tern spatial data Interesti ng rule Databas e system machine learning multiple level large set spatial database ۳۳ enh 0.0023453 062 0.0018312 665 0.0014907 152 (0.009895 264 2606618 261 2 ص2 731 0.005461 672 0.0005140 Dern Association rule Large database Data mining relational database Decision tree knowledge discovery relational data

صفحه 44:
سومین فر آیند (یافتن عبارات به جاي کلمات)- ادامه Weight 0.00000034 07 0.00000030 83 2222027 58 222 224 34 2222209 47 Term attribute oriented induction data mining system generalized association rule object oriented database data mining technique Weight 0.00000129 81 0.00000051 92 0.00000051 92 0.00000048 68 22 7 32 اعبارت سه كلمه اي با بالاترين احتمال رخداد در كره "بسحب ممق" Term mining association rule multiple level association Level association rule discovered association rule spatial data mining we

صفحه 45:
معماري 281617-05 User's Query Query Expansion Component Expanded Que: ‎y‏ دا ‎ ‎AKU-CS Middleware ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 46:
آزمایشات پرس و جو در معماری ‎AKU-‏ ‎cs‏ ۱ © ارائه برس و جوي ‎O98” RerPorcewedt Learctey Tieton”‏ توسعه برس و جو 243. How to Make Software Agents Do the Right Thimg: An Introduction to Reinforcement Learning 1 Saiindes Singh Peter Norvig David Cohn (1996) BBL Word etches: Reintorement Score ‎Deis‏ تش بويع ‎Ease Ener tewningletoduction waa‏ ‎ ‏6 توسعه پرس و جو با استفاده از 0۵04 ‏+ 300 نتبجه اول برگردانده شده انتخاب و بر اساس میزان شباهت با جستجوی توسعه يافته دوباره رتبه بندي كرديد ‎١‏ ‏© سند فوق در رتبه بندي مجدد با پرس و جوهاي مشابه با فوق در 5 نتیجه اول بود ‎eo ‎

صفحه 47:
استدلال بر پایه موارد (61518) Cuma OBR ‏نوعراز لست لاير بليماستفاهه عجدد از تجربه هاوكنشته كه عورد‎ 068 © ‏نسامیده مي‌پُسوند بسولی‌حل‌مسلنل‌جد یدحشلبه بسا حوارد‎ COR ‏عناصر مورد در‎ @ Probew, Orton aad Ourvwe (P, 6,0) © 006 ‏اجزا يك سستم‎ 8 ‏معيارهاي تشابه‎ © ‏نه حافظه (بايكاه داده) موارد‎ ‏تطبیق موارد قبلي بر مورد جدید‎ Hild we

صفحه 48:
5 بيلوموتوويهاوجستجووبا دلمنه ۱ خام(0۹5 - اهداف استقاده از 006 در 0666 @ اجتناب از جستجوهای مجدد برای پرس و جيهاي مشابه * يادكيري از جستعوهاي كذشته براي افزایش دقت نتایج موتور جستجو به جستجوهاي مشابه با جستجوهاي قبلي 6 چرا در 060606 قابل استفاده از است؟ © دو مطالعه مجزا بر روي. موتورهايی جستجوي »ت0۷ و «<) بخش قابل توجهي از پرس و جوها بر روي موضوعات مشخص و مشابهي رخ مي دهند. ۲ © در ‎haat‏ جستجوي همه منظوره پرس و جو ها مي توانند بر روي هر موضوعي ارسال شوند: 4 براساس ی یلک نی تون ار دنت شمه پرس و وهاي ما 7 يك تحليل كيفى مى توان انتظار داشت تعداد د جوهاي مشابه د تتورهای جمتجوي باکت ات دا برس و جوهاي ماه در ee

صفحه 49:
معماري یکبار چه براي موتورهاي جستجوي با دامنه ‎(AKUSearchEngine) .~G‏ مه به6 ات دح = qa Over S|) ‏سیم‎

صفحه 50:
5 بيلوموتوويهاوجستجووبا دلمنه ۱ + خام(055۳) " 6 پایگاه داده موارد شامل » پرس و جوي کاربر * دسته متناظر پرس و جو در 060 + 20 هاونستلیج در صووتوجود * امتیاز صفحه (دریافت شده از موتور جستجوي اصلي) ۶ معیار تشابه موارد ‎Cro(Drw_Owr, OM_Owe) = ull X Query_GOxvtety +‏ ‎X Okes_Grotrip‏ هر ‎ult wO =‏

صفحه 51:
+1 بیلمهوتمی‌های‌هستجووبا دلمنه خاص(55۳() - ادلمة ‎Over Query Crotty‏ © OF Ohopke ell totaace wrecare bred oo Levecthisa cts okpr isc @ DPOE (Tere Prenewy * ‏مه وه‎ Preqewy) 6 ‏مود مان‎ 66, 6( - fo} Ginw_Oro(KO, KP) * KK, Ky 20 ‏ا‎ ‏جیوه‎ 4 6), 6( « on No ۳ Struc Sieh GS ‏درو‎ <a 7 ‏با‎ = bevel APP (<023, KP>, KO) + Level_dPP (<KO, KP>, KP)

صفحه 52:
+1 بیلیهوتور‌هایجستجووبا دلمنه خاص(:]551() - ادلمه 1 4 ‏کرک ۳ رح‎ Sms ro 2 “Otherwise i K,, Kp Term SinbK,, K;) ‏)یز -((جر رک تج‎ (+ nutkCT{Ky Ky)) dR) CRED)” Wiel CHK KD + ‏سح ره مر‎ O = ors OO - ‏سول - 0 عس) سول‎ Pers (some toa var werd)

صفحه 53:
بیلویوتوو‌هایجسنجووبا ملمند ۱ خاص(55۳()- ادلمه 8 تطبیق موارد © رتبه بندي مجدد 269 هاي جواب در مورد مشابه به مورد جدید * ادغام نتایج موارد مشابه و رتبه بندي مجدد اگر چندین مورد داراي تشابه بالايي هستند 1 1 ee

صفحه 54:
نتیجه گيري 9 کاوش متمر کز وب با استفاده از يادگيري تقويتي © توسعه روشهاي --ج0 براي محاسبه مقدار © يادكيري تقويتي و بيشنهاد روشهاي جديد 6 استفاده از دسته بندي كننده ماشينهاي بردار بشتيبان براي اولين بار در كاوشكرها و مقایسه با نتایج قبلي " @ ارزيابي تاثیر مقادیر متفاوت پارامترهای يك کاوشگر يادگيري تقويتي در کار آيي جرج مانند متن اطراف ابربیوند؛ تعداد دسته ها در دسته بدي کننده و مقدار گاما در شش وی کاربر در كاوشگرهاي متمرکز 4 معرفی ابزار "سلسله مراتب مفهومی با دامنه خاص" و اتفده از آن براي توسعه خودکار پرس و جوي کاربر در معماري -600 96 » طراحيء بياده سازي و ارزيابى ‎١‏ جدید براي ساختن خودكار "سلسله مراتب ‎iano‏ بان ساي و روطي الور عير باد براي ساختن خوه كار الملسله درا © بيشنهاد يك معماري يكبارجه (با ارائه جارجوب فرمال ) براي موتورهاي جستجوي با دامنه خاص كه از "سلسله مراتب مفهومي بأ دامنه خاص و اسندلال بر پایه موارد براي يادگيري از جستجوهاي قبلي استفاده مي کند or

صفحه 55:
نتیجه گيري - ادامه 9 بهبود ‎ahs‏ کاوشگرهاي متمر کز يادگيري تقويتي 6 استفاده از دسته بندي کننده 6000 باعث يافتن بسیار سریعتر صفحات هدف در نیمه نخست کاوش مي شود که در کاوش متمر کز بسیار مهم است. * مقدار گاما: 1/0 © تعداد دسته ها: 3 دسته © متن درهمسايكي: * کاوشگر‌های بادسته بندى كننده 8000(2): متن مرتبط * کاوشگ‌های بادسته بندی کننده 6060: متن نردیک © بهترین روش کاوش: ۰0.9 لح 6 هط 7 * استفاده از روش مكاشفهاي در کاوش منجر به بهبود کا رآيي کاوش و مخصوصاً منجر به یافتن سریعتر صفحات هدف در اوایل کاوش میشود. * استفاده از روش تغییر خط مشي منجر به بهبود کا رآيي کاوشگرهاي میشود. ee

صفحه 56:
نتیجه گيري - ادامه 8 بهبود مکانیسم هاي پرس و جوي کاربر © با توسعه خودکار پرس و جوء کاربر نيازي به فراهم آوردن اسناد اولیه مرتبط در جستجو فدارد. ۱ * الگوریتم پيشنهادي براي ساخت خود کار 050 مجموعه لغات مرتبط مفهومي را بصورتي موثر مي باید. * استفاده از 00007 براي توسعه برس و جوي کاربر در معماري 000-00 منجر به بهبود کیفیت فتایج موتور جستجو مي شود @ معماري عپه و00 با بهره گيري از 080 و 006 امکان اراثه نتایج با کیفیت و دقت بیشتر را به کاربر فراهم مي آورد.

صفحه 57:
پيشنهادات آینده 8 کاوشگرهاي متمرکز يادگيري تقويتي © يهبود روشهاي کاوش متمرکز وب (با موضوع خاص) بوسیله اسلسله مراقب مفهومي با موضوع خاص" © دسته بندي کننده هاي متن تطبيقي (پهیا) * آزمایش روشها بر روي بستر آزمایش شرکت ها (يك صفحه هدف) يادگاري ساختار وب با استفاده از يادگيري تقويتي © مكانيسم هاي برس و جو © استفاده از دانش مربوط به علائق و زمينه هاي تحقيقاتي و يا كاري كاربر در توسعه برس وجو @ تشخیص خودکار دسته مورد نظر در 080۶ 6 استفاده از الگوریتم هاي قویتر به جاي الگوریتم ساده ۳۳106 در یافتن کلمات مرتبط © اطلاعات درون شاخص تهیه شده از صفحات وب (در موتور جستجو) به جا و یا در کنار شاخص اصليء بصورت "مورد" در يك پایگاه داده درون کاوشگر متمر کز نگهداري شوند or

صفحه 58:
مهم ترین مراجع مورد استفاده © Okdeubot ©., Our Der Bery O., ord Orw ®., Porsed pravky! vw wprewk ‏یج وف موی سس‎ Proverdap oF the Of: Inter catoad Dorid-Dide 3 ‏سین‎ )0006( (OSS. 6 0/۵ ©», Sree ‏.ل سم‎ cad Oeypwore K., Curwatey he ‏اه تست‎ rier! portly wit oxckice bara, a kPoranton Rerevd dowd, (OO. 6 ‏م0 ,.6 مسط 00 لب لس‎ rekPorcewed borin; ‏و‎ spiter te web PPro, “ka ‏بسا نله من وج :0 مومس‎ )100,(, 6 لیب ‎revert Ovotx-‏ اح ا ع 1 ع © ‎g Dechy, Brovevrkp of her ‘erenaoned Oo Pororce we Owhtw bowretey (TOOL),‏ تیه 0 :جوا و۵ .. (0 .® حور لو .۱ :0 مسا .6 ماس © ‎Ow 1999.‏ ,66606 ۱ ۳ ‎PLY, Orormt: Prcwrcatrs ord RePewrd oP Onccert Vera chier Por‏ لجن إل مم فا رت للم منوت 200190 جب برس سس ‎Debus (KDO'GF), Grute, JOOP, pres ۰‏ یه 0 ,.@ ‎Beterk-Sporl ®., Lear O. und Liter.‏ © ,با ‎Levtre Oves to OriPind‏ 0 هایس ی ‎Ort. IO7O, Gpringer-Orrkny, Berta, ‏.م۶‎ 9-69, ۰, ‎

صفحه 59:
مقالات ارائه شده @ H. R. Motahari Nezhad, A. A. Barfourosh, Expanding Reinforcement Learnin. g Approaches for ‘Efficient Crawling the Web, The World Multi Conference on Systematics and Cybernetics and Informatics (SCI 2003}, July 27 - 30, 2003, Orlando, Florida, USA. To Appear. @ A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning Approach to Domain Specific Search Engines, International Journal of Applied Science and Computations, USA, To Appear. @ H.R. Motahary Nezhad, A. A. Barfourosh, A New Approach to Expand User's Query in Domain Specific Search Engines, in Proceedings of Eight International Computer Society of iran Conference (CSICC'2003), Mashhad, Iran, 25-27 February, @ A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasonin Framework for Domain Specific Search Engine, Proceedings o' The 2002 International Arab Conference on Information Technology (ACIT’2002), Vol 1., Qatar, pp. 20-29, December 16-1!

صفحه 60:
مقالات ارائه شده - ادامه © H. R. Motahary Nezhad, A. A. Barfourosh, Focused Crawlin: Trends as a New Approach to Web Crawling: Problems an Limitations, First National Computer Conference (NCC2002), Mashhad - iran, December 2002. @ A. A. Barfourosh, H.R. Motahary Nezhad, Design of an Information Integration Environment based on Active Logice, Technical Report in Department of Computer Engieeering, Amirkabir University of Technology, Tehran - Iran, November 2002. @ A. Barfourosh and H. R. Motahary Nezhad, A New Approach to Information Retrieval based on Case Base Reasoning and Concept Hierarchy in Cora, Accepted in Third International Conference on Data Mining Methods and Databases for Engineering, Finance and Other Fields (Data Mining 2002), Bologna, Italy, September 25-27, 2002. @ H. R. Motahary Nezhad, Toward Next Generation Search Engines, in proceedings of Sth student computer conference, University of Science and Technology, May 22-24, 2002, Tehran - Iran.

صفحه 61:
مقالات ارائه شده - ادامه @ A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D. Perlis, ALLI: An Information Integration System Based on Active Logic Framework, in Proceedings of Third International Conference on Management Information Systems, Greece, 24- 27 April 2002, pp.339-348. @ A. A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D. Perlis, Information Retrieval in WWW and Active Logic: Survey and problem definition, Technical Report in Department of Computer Science of University of Maryland and Institute of Advance Computer Science in University of Maryland, USA, CS- 4291, 2002.

صفحه 62:
با تشكر و سياس "۳ از حضور و توجه شما

بازيابي كارا و مؤثر اطالعات وب با استفاده از دستاوردهاي يادگيري ماشين :طراحي و تكامل روشهاي يادگيري تقويتي در كاوش متمركز جلسه دفاع از پايان نامه كارشناسي ارشد دانشگاه صنعتي اميركبير دانشكده مهندسي كامپيوتر دانشجو: حميدرضا مطهري نژاد استاد راهنما: دكتر عبداله زاده بارفروش ‏Efficient and Effective Information Retrieval through Machine Learning Approaches: Design ‏and Evolution of Reinforcement Learning on Focused Crawling فهرست مطالب مقدمه دستاوردهاي اين پروژه كاوش متمركز وب كاوش متمركز وب با استفاده از يادگيري تقويتي طراحي و پياده سازي كاوشگر متمركز يادگيري تقويتي نتايج حاصل از پياده سازي و ارزيابي توسعه مكانيسم هاي پرس و جو در كاوشگرهاي متمركز معرفي “ سلسله مراتب مفهومي با دامنه خاص (”)DSCH ارائه الگوريتمي خودكار – DSCHپياده سازي و ارزيابي آن ارائه معماري يكپارچه براي موتورهاي جستجوي با دامنه خاص نتيجه گيري و پيشنهادات آينده مقاالت ارائه شده حاصل از پروژه 2 معماري كاوشگرهاي وب Index Manager Indexer Stop list Stemmer Proper noun list Indexing Policy Indexing Component Query Manager Thesaurus … Crawling Component target url Crawler Manager Results query Querying Component 3 Web content كاوش متمركز وب كاوش متمركز وب به عنوان راه حلي براي بازيابي اطالعات وب صفحات مربوط به يك موضوع و يا از نوع خاص را جستجو و كپي كرده ،شاخص­بندي و نگهداري مي كند. نتايج مورد انتظار از كاوش متمركز يافتن بيشترين صفحات مربوط با كاوش كمترين ابرپيوند نامربوط تحقيقات مرتبط ‏Fish ‏Web Watcher ‏Page-Rank )IBM Focused Crawler (Clever ‏Cora ‏Context Focused Crawler ‏KAON ‏Apprentice 4 معماري كاوشگرهاي متمركز حد آستانه اسناد مربوط به موضوع مورد تمركز صفحات مرتبط تشخيص ميزان تشابه تخمين ميزان ربط ‏UR صفحه به موضوع ابرپيوندهاي كاوش (دسته بندي ‏Lهاي استخراج شده به ا6س6تخرا6ج كننده) موضوع صفحه وب وب ‏UR ‏L صفحه وب مؤلفه تنظيمات اوليه (صفحات اوليه كاوش) كاوشگر(هاي) وب ش6ده6 ‏URL URLمVقدار Q / آدرس شروع صف اولويت ‏URLها 5 دستاوردهاي اين پروژه كاوش متمركز وب با استفاده از يادگيري تقويتي توسعه روشهاي Coraبراي محاسبه مقدار Qيادگيري تقويتي و پيشنهاد روشهاي جديد استفاده از دسته بندي كننده ماشينهاي بردار پشتيبان براي اولين بار در كاوشگرها و مقايسه با نتايج قبلي ارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي كاوشگر مانند متن اطراف ابرپيوند ،تعداد دسته ها در دسته بندي كننده و مقدار گاما در محاسبه Q توسعه پرس و جوي كاربر در كاوشگرهاي متمركز معرفي ابزار "سلسله مراتب مفهومي با دامنه خاص" و استفاده از آن براي توسعه خودكار پرس و جوي كاربر در معماري CSََ AKU- طراحي ،پياده سازي و ارزيابي الگوريتمي جديد براي يادگيري "سلسله مراتب مفهومي با دامنه خاص" با استفاده از اسناد آموزشي ‏Vرهاي جستجوي با پيشنهاد يك معماري يكپارچه (با ارائه چارچوب فرمال ) براي موتو دامنه خاص كه از سلسله مراتب مفهومي با دامنه خاص و استدالل بر پايه موارد براي يادگيري از جستجوهاي قبلي استفاده مي كند 6 يادگيري تقويتي يادگيري تقويتي ي بهينه از محاوره با يك محيط پويا و باV به چارچوبي براي يادگيري خط مش .مكانيسم پاداش و جزا اشاره دارد S: set of available States , A: set of available Actions, Agent T: SAS, Transition Function R: SAR, Reward Function, STATE , : SA, Learned Policy REWARD ACTION rt: Received reward in t step after Environment starting from s, : discount  factor, V (s) = Value of state s *: Optimal Policy, which maximizes the values of states, for all state s. V (s) maxV (s) V*: Value Function of Optimal Policy  : expected return of taking action a in state s, and thereafter Q (s, a) maxQ (s, a) Q* following optimal  policy Q*(s,a) = R(s,a) +  V*(T(s,a)) 7  t  V (s)    rt t 0 يادگيري تقويتي براي كاوش متمركز خواصي از يادگيري تقويتي كه آن را براي كاوش متمركز مناسب مي سازد: توانايي مدل كردن پاداشهاي تاخيري (آينده) حاصل از تعقيب ابرپيوندها امكان يادگيري از سعي و خطا – مناسب براي محيط هاي پويا و با تعداد داده هاي آموزشي كم كارآيي به صورت پاداش در طول زمان قابل اندازه گيري است مزيت كاوشگر يادگيري تقويتي بر كاوشگر متمركز معمولي امكان در نظر گرفتن پاداش هاي آينده يك ابرپيوند در اولويت كاوش آن 8 نگاشت كاوش متمركز به يادگيري تقويتي توابع Tو Rمشخص هستند پاداشهاي آني ()R: Reward Function سند مرتبط حاصل از كليك كردن ابرپيوند پاداشهاي آينده ()V: Value function سند (اسناد) مرتبط حاصل از تعقيب ابرپيوند در چند سطح بعدتر “عمل” :تعقيب (پيمايش) يك ابرپيوند خاص (A: set of )actions تعداد اعمال در اختيار ،پويا و بزرگ "حالت" شامل ()S: set of states مجموعه اسناد هدفي است كه بايد کاوش شوند. مجموعه‌ پيوندهايي كه يافته شده‌اند. 9 نگاشت كاوش متمركز به يادگيري تقويتي (ادامه) مشكالت فضاي حاالت بسيار بزرگ است. تعداد اعمال در اختيار هم بسيار زياد است فرض هاي كاوشگر يادگيري تقويتي Coraبراي سادگي و تعميم مساله: "حالت" مستقل از اينست كه كدام اسناد هدف تابحال ديده‌شده‌اند. تبديل تمامي حاالت به يک حالت ميزان ربط اعمال (ابرپيوندها) به موضوع (هدف) مي‌تواند با كلمات "در همسايگي" ابرپيوند متناظر با هر عمل مشخص شود. مي‌توان بين ابرپيوندها تعميم انجام داد و آنها را بوسيله متن اطرافشان با هم مقايسه كرد. 10 طراحي كاوشگر متمركز يادگيري تقويتي امكان يادگيري برخط طراحي كاوشگر يادگيري تقويتي در اين پروژه فاز آماده سازي بستر آزمايش و پيش پردازش فاز يادگيري فاز آزمايش 11 مشخصات بستر آزمايش عدم امكان استفاده از پايگاه هاي وب ايراني بستر آزمايش تعداد صفحات تعداد ابرپ8يوندها تعداد مقاالت تحقيقي دانشگاه بوستون 7365 44347 1425 دانشگاه برون 10405 72600 1554 پسوند صفحات وب کپي شده .html, .htm, .shtml دانشگاه پيتزبورگ 4104 12811 622 پسوند فايلهاي صفحات هدف (مق8اله هاي تحقيقي) .ps, .ps.gz, .ps.Z, .pdf, .pdf.Z دانشگاه کاليفرنيا – ديويس 1170 2731 440 پايگاه هاي وب بخش هاي علوم ‏Vگاه كامپيوتر چهار دانش Boston، Brown، Pittو ‏UCDavis نام دانشگاه ‏HTML 12 طراحي كاوشگر يادگيري تقويتي (معماري بخش آماده سازي بستر آزمايش و پيش پردازش ) تعداد مقاالت در سطوح هر URL پيش 6پردازش نتيجه كاوش ليست مقاالت ‏URL ليست ‏URLهاي پايگاه م6قا6له /URL پردازش سند ص6فحه HTپايگاه داده " MLدرهمسازي" / URL صفحه وب 6در/ ‏URLپ6 ‏ ‏URL URLكاوشگر "اول- وب سطح" صفحه وب مولفه تنظيمات اوليه URLش6رو6ع : L ت66ع6داد س6طوح ك6او6ش 13 طراحي كاوشگر يادگيري تقويتي (معماري بخش يادگيري) مقدار Q -هر ‏URL محاسبه مقدارQ - هر URL ‏روش محاسبه مولفه تنظيمات اوليه تعداد مقاالت در سطوح هر URL ‏UR ‏L كاوشگر "اول- پايگاه داده ‏ نوع متن همسايگي سطح" "درهمسازي" صفحه وب تعداد دسته ها ‏متن ابرپيوند و همسايگي آن /مقدارQ - زوجهاي "مجموعه كلمات/مقدار "-Qبراي هر آدرس" يادگيرنده (دسته بندي كننده) دسته بندي بر اساس مقدارQ- دسته هاي آموزشي 14 دسته بندي كننده هاي متن دسته بندي كننده بيز ساده (مورد استفاده در )Cora روش آماري براي دسته بندي متن (احتمال تعلق يك متن به هر دسته) از روش بيز استفاده مي كند و كلمه “ساده” به اين معني است كه احتمال رخداد كلمات در هر دسته و سند را مستقل از هم در نظر مي گيرد. روش شناخته شده و پر كاربرد براي دسته بندي متن دسته بندي كننده ماشينهاي بردار پشتيبان ()SVMs بر اصل "حداقل سازي خطاي ساختاري" در نظريه يادگيري محاسباتي تكيه دارد يافتن قضيه hكه حداقل خطاي مطلق را تضمين ميكند ،معادل يافتن چند سطحي است كه داراي حداكثر حاشيه با بردارهاي پشتيبان در داده هاي آموزشي است 15 دسته بندي كننده هاي متن (دسته بندي كننده )SVMs داليل تناسب ماشينهاي بردار پشتيبان براي دسته بندي متن ابعاد زياد فضاي ورودي – راه حل SVMsبه تعداد ويژگيها (صفات) بستگي ندارد. تعداد كم ويژگيهاي غير مرتبط تُنك بودن بردارهاي اسناد ماشينهاي بردار پشتيبان Transductive روش TSVMSيك نوع خاص از SVMsاست كه هدفش يادگيري از تعداد معدودي داده آموزشي است در دسته بندي متن نسبت به الگوريتم SVMsبه كارآيي بهتري دست يافته است دستاورد استنتاج Transductiveبه جاي استقراء ( )Inductionاستفاده ميكند در استقرا ،يادگيرنده سعي ميكند تا به طريقه استقراء يك تابع تصميم را نتيجه بگيرد كه داراي نرخ خطاي پاييني در تمامي توزيعهاي داده هاي آموزشي و آزمايشي براي يك يادگيري خاص باشد .در بسياري از موقعيتها مي خواهيم يك مجموعه از مثالها (مجموعه آموزشي) را با كمترين خطاي ممكن دسته بندي كنيم .اين مساله ،هدف استنتاج Transductiveاست. 16 در اين پروژهQ روشهاي محاسبه Cora روشهاي توسعه يافته از Immediate (Two classes): – std. FC If the link is a paper its Q value is 1 else 0. Distance: Calculates Q values as gamma ^ (distance to the  nearest reward) Future (Three classes): Calculate Q values for three classes - immediate, future, none. Score = 1 for immediate, gamma for .future, zero for none Future (Four classes): Calculates Q values for four classes - immediate, onestep, two-step, none.Score = 1 for immediate, gamma for one-step, gamma^2 for two-steps, zero for none 17 ) دسته2( روش آني روش فاصله ) دسته3( روش آينده ) دسته4( آينده ) دسته5( آينده )آينده (موازي تعداد مقاالت تحقيقي روشهاي جديد روش برش مقدار تغيير خط مشي روش مكاشفه اي طراحي كاوشگر يادگيري تقويتي (فازآزمايش ) دسته بندي كننده (بيز ساده يا ماشينهاي بردار پشتيبان) ‏n ) Q(text)   Pc (text)  Q _ Avg(Ci ‏i 1 i احتماالت تعلق / URLم6تنه6مساي6گي نتيجه كاوش پايگاه داده "درهم سازي" ‏URL صفحه وب محاسبه مقدارQ- ‏URL/ مقدارQ- صف اولويت URLب66ا ب66يشتري6نم6قدار- ليست مقاالت كاوشگر يادگيري تقويتي ‏Q مولفه تنظيمات آدرس اوليه شروع 18 پياده سازي كاوشگر يادگيري تقويتي شرايط سخت افزاري پنتيوم IVبا پردازنده MHz6/1و با مقدار Ramبرابر 512مگابايت و ديسك سخت 40گيگابايت سيستم عامل و زبان برنامه نويسي سيستم عامل لينوكس و زبانهاي Perlو Cتحت اين سيستم عامل مولفه هاي آماده مورد استفاده ‏Webget )…Rainbow – Text Processing Package (‍Classification, ‏Naïve Bayes Classifier ‏Support Vector Machines Classifier كدهاي غير تجاري Cora 19 پياده سازي كاوشگر يادگيري تقويتي (تعداد آزمايشات انجام شده) تعداد روشهاي پايه عامل تاثيرگذار ضريب تاثير 8 مقدارهاي مختلف گاما ( 1/0و 3/0و )5/0 3 انواع متن در همسايگي (نزديك ،مرتبط و تمام صفحه) 3 تعداد دسته هاي آموزشي (3و 4و )5 انواع دسته بندي (بيز ساده و ماشينهاي بردار پشتيبان) ‏Vگاه ها ( پايگاههاي وب بوستون ،برون ،پيتربورگ و تعداد دانش كاليفرنيا-ديويس) 3 2 4 تعداد آزمايشها با تمامي تركيب ها 1200 :آزمايش تعداد آزمايش انجام شده در اين پروژه 213 * 4 = 852 روشهاي جديد 30 :آزمايش 20 پياده سازي كاوشگر يادگيري تقويتي )(اجراي خودكار كاوشگر مدير اجرا Get Test Name Construct training data... Create index model...; Make average of Q-Values of each class ...; Train naïve bayes classifier (Rainbow) and install it in port 1823... Run the test using naïve bayes classifier Train SVMs classifier (rainbow with ) in different port (1824) Run the test using SVMs classifier  21 پياده سازي كاوشگر يادگيري تقويتي (برنامه تحليل نتايج و توليد نمودارها) 22 نتايج پياده سازي ) در بستر آزمايشSVMs وNB (مقايسه دسته بندي كننده هاي Di ffe re n t Cl ass Nu mb e rs (Av g e rag e d o v e r 4u n i v e rsi t i e s) 100 Pecen t 90 Two 80 Th re e 70 Fo u r Five 60 50 N NB 23 R NB FNB N SVMs Me t h o d s R SVMs FSVMs يادگيريV پارامترهاي ارزيابي كارآيي كاوشگرهاي تقويتي درصد مقاالت يافته شده به درصد صفحات كاوش شده:معيار اول ميزان پاداش دريافتي در طول اجرا توسط كاوشگر:معيار دوم Integral_Sum = 0 // Calculating integral (space above curve) For index = 0 to Paper_number do If (index/Paper_Number <= Percent) Integral_Sum = Integral_Sum + Link_Number[index] // Calculating integral of under curve Integral_Sum = Univ_Link_Number * Paper_Number – Integral_Sum // Calcultaing the percent of overall achieved reward Integral_Sum = Integral_Sum / (Univ_Link_Number * Paper_Number) تعداد مقاالت تحقيقي كاوش شده تا درصد خاصي از كاوش:معيار سوم 24 مقايسه تاثير دسته بندي كننده در كارآيي كاوشگر يادگيري تقويتي – معيار اول 25 مقايسه تاثير مقدار گاما در كارآيي كاوشگر يادگيري تقويتي – معيار دوم Gamma 30% svm_0.1 79.659 7 svm_0.3 78.738 5 svm_0.5 77.959 nb_0.1 79.793 3 nb_0.3 79.1212 nb_0.5 74.780 2 0.1 79.727 5 0.326 78.929 8 Gamma 50% svm_0.1 78.509 3 svm_0.3 77.805 9 svm_0.5 76.689 nb_0.1 79.814 nb_0.3 78.987 8 nb_0.5 76.452 5 0.1 79.1714 0.3 78.396 9 Gamma 100% svm_0.1 67.914 5 svm_0.3 66.906 8 Gamma Last 50% svm_0.1 74.194 8 svm_0.3 72.132 3 svm_0.5 66.461 9 svm_0.5 71.730 4 nb_0.1 71.906 6 nb_0.1 77.288 nb_0.3 76.046 9 nb_0.5 75.158 6 0.1 75.764 5 0.3 74.089 6 nb_0.3 71.102 nb_0.5 69.746 5 0.1 69.940 4 0.3 69.004 4 مقايسه تاثير مقدار گاما در كارآيي كاوشگر ادامه- تقويتيV يادگيري Gamma 10% Svm_0.000 1 68.26003 88 Svm_0.001 67.50965 13 Svm_0.01 67.494211 9 Svm_0.1 68.721419 58 nb_0.0001 63.94740 63 nb_0.001 66.83404 13 nb_0.01 66.122017 5 nb_0.1 27 69.03555 Gamma 50% svm_0.0001 75.036513 75 svm_0.001 70.978741 25 svm_0.01 74.203239 38 svm_0.1 76.973914 58 nb_0.0001 34.137497 5 nb_0.001 54.587031 25 nb_0.01 45.112820 63 nb_0.1 56.119568 33 Gamma 100% svm_0.0001 68.260 039 svm_0.001 67.509 651 svm_0.01 67.494 212 svm_0.1 68.7214 2 nb_0.0001 63.947 406 nb_0.001 66.834 041 nb_0.01 66.1220 18 nb_0.1 69.035 55 مقايسه تاثير تعداد دسته ها در كارآيي كاوشگر يادگيري تقويتي Class 30% svm_three 80.2867 8 svm_four 75.8086 4 svm_five 77.8792 8 Class 100% svm_three 68.50322 15 svm_four 65.24404 13 svm_five 66.26220 82 nb_three 81.63572 nb_three 75.341351 7 nb_four 74.0962 7 68.29322 6 nb_five three 28 nb_four 78.99991 nb_five 69.811134 80.96125 three 71.92228 66 Class Last 50% svm_three 74.600 77 svm_four 70.823 78 svm_five 71.787 7 nb_three 80.503 76 nb_four 73.700 94 nb_five 74.896 64 three 77.552 26 مقايسه تاثير متن همسايگي در كارآيي كاوشگر يادگيري تقويتي Text 30% svm_near 77.90976 147 svm_rel 79.25077 888 svm_full 76.319931 82 nb_near 82.82294 186 nb_rel 74.321019 3 Text 100% Text Last 50% svm_near 65.8203 727 svm_rel 68.87017 99 svm_rel 73.906 25 svm_full 65.13000 97 svm_full 70.909 86 nb_near 75.12223 35 nb_near 80.309 65 nb_rel 68.71179 5 nb_rel 73.296 62 nb_full 73.001546 52 nb_full 65.2234 597 nb_full 71.082 22 near 29 80.366351 67 near 70.47130 31 Near svm_near 72.315 74 76.312 7 يادگيري تقويتيV مقايسه كارآيي كاوشگرهاي با جميع پارامترها Method 10% Method 30% nb_n_4_cut_g0.3 94.199867 5 nb_n_4_cut_g0.3 89.770865 svm_f_4_four0.3 93.72536 75 svm_r_5_cut_g0.5 89.6505 svm_f_4_four0.5 93.69440 5 svm_r_4_cut_g0.5 88.383172 5 svm_f_5_dist0.3 93.68524 25 svm_n_4_cut_g0.3 88.328312 5 svm_f_4_four0.1 93.45632 5 svm_r_5_five0.5 88.12912 nb_n_5_dist0.5 93.25344 25 svm_n_5_cut_g0.5 87.796012 5 nb_n_5_five0.5 93.20841 svm_r_3_parl0.3 87.776272 5 svm_r_5_cut_g0.5 93.09662 svm_r_5_parl0.5 87.74648 92.99507 svm_r_5_parl0.3 87.74648 30 nb_f_5_dist0.1 يادگيري تقويتيV مقايسه كارآيي كاوشگرهاي ادامه-با جميع پارامترها Method 50% svm_n_4_cut_g0.3 88.481055 Method 100% nb_n_4_cut_g0.3 81.8159675 nb_n_4_cut_g0.3 88.36996 nb_r_3_cut_g0.5 78.335362 5 svm_n_5_cut_g0.5 87.56996 75 nb_r_3_parl0.1 78.04647 svm_r_5_cut_g0.5 87.37099 75 nb_r_4_dist0.5 77.968872 5 svm_r_5_five0.5 87.25904 5 nb_r_3_parl0.3 77.94723 svm_r_3_parl0.3 87.02282 nb_r_4_dist0.3 77.87946 nb_n_3_cut_g0.5 86.97768 5 nb_n_3_cut_g0.5 77.364047 5 nb_r_4_four0.5 86.68336 25 nb_r_3_dist0.3 77.352802 5 86.62787 5 nb_r_3_cut_g0.3 77.25757 31 svm_r_4_cut_g0.5 مكاشفه اي براي بهبود كارآيي كاوشگرV روش يادگيري تقويتي Word Weight Papers 0.1935 9 People 0.0768 9 Pub 0.0755 9 Techreports 0.0546 3 Research 0.0536 2 Pubs 0.0302 3 Publications 0.02611 refereedconference 0.0128 7 Reports 0.0103 6 32 0.0098 Word Weight Postscript 0.0096 3 Tech 0.0087 8 Graphics 0.0086 6 accepted 0.0064 7 pdf 0.0062 7 articles 0.0059 2 users 0.0057 4 files 0.0051 5 conf 0.0050 1 Word Weight selectedjournal 0.0039 6 paper 0.0039 6 ai 0.0035 6 Journal 0.0030 4 Journals 0.0023 8 archive 0.0021 7 ps 0.0023 1 projects 0.0017 8 faculty 0.0012 5 Vمكاشفه اي براي بهبود كارآيي كاوشگر روش Vتقويتي -ادامه يادگيري 33 بهبود كارآيي كاوشگر يادگيري تقويتي با تغيير خط مشي 34 Vيادگيري تقويتي ،متمركز مقايسه كاوشگرهاي و اول-سطح 35 توسعه مكانيسم هاي پرس و جوي وب در كاوشگرهاي متمركز مشاهده واقعيت ها و كمبودهاي زير تطابق دقيق كلمات كليدي در يافتن جواب پرس و جوي كاربران عدم استفاده از دانش حوزه مورد جستجوي كاربر جواب دادن به پرس و جوي كاربران عدم استفاده از دانش عاليق و پيش زمينه هاي كاري و علمي كاربر راه حل پيشنهادي ‏Vي كاربران با استفاده از يك سلسله مراتب مفهومي با دامنه خاص توسعه پرس و جو مزاياي راه حل پيشنهادي فرآيند توسعه پرس و جو يك فرآيند خودكار است ‏Vع به عنوان ورودي سيستم ندارد. كاربر نيازي به فراهم آوردن اسناد مرتبط به موضو سلسله مراتب مفهومي با دامنه خاص از طريق يك فرآيند آماري بر روي متن ياد گرفته مي شود 36 سلسله مراتب مفهومي با دامنه خاص سلسله مراتب مفهومي ( )CHچيست؟ ‏Vب ‏VيمVرت ‏Vزي ‏Vيبج Vدر يVكتVرت ‏VتكVه ‏Vس ‏Vبطا ‏Vومٌا مVرت VهايمVفه ‏Vياز گVره ‏Vا CHمVجموعه ‏Vند. ‏Vا شVده سلسله مراتب مفهومي با دامنه خاص Vدامنه خاص ا ست نوعي از سلسله مراتب مفهومي كه شامل لغات فني يك دستاورد اين پروژه در اين زمينه طراحي و پياده سازي الگوريتم مبتني بر يادگيري براي ساخت خودكار ‏DSCH 37 لVثاV م- DSCH Computer Science Operatin g Systems Hardware & Architectu re Artificial Intelligen ce Human-Computer Information Retrieval Interface Term1 Term2 …. Natural Language Processing Retrieval Machin e Learni ng Planning Reinforcement Neural Network Learning Term1 Term2 …. 38 Term1 Term2 …. ... Robotics Term1 Term2 …. ... Term1 Term2 …. Filtering Term1 Term2 …. ... ... DSCH مراحل الگوريتم ساخت خودكار Crawling and PreProcessing Second Process Finding highly cooccurrence weighted Words Cawling the selected Hierarchy and PreProcessing the documents First Process Third Process Finding highly weighted words (TFIDF) Finding Terms instead of separated Words TFIDF: Term Frequency Inverse Document Frequency 39 مرحله كاوش و پيش پردازش كاوش سلسله مراتب انتخابي ( )Coraو كپي كردن اسناد آموزشي حذف بخشهاي ثابت (سرآيند و زير نويس) و نام مولفان براي مقاالت (“)Author”, “References”, …words بستر آزمايش 100سند آموزشي از هر گره Coraكپي و به عنوان مجموعه آموزشي استفاده شد Vمراجع و هر سند اطالعاتي راجع به يك مقاله در موضوع گره (نام ،چكيده ،نام مقاالتي كه به اين مقاله اشاره كرده اند) 40 TFIDF (يافتن كلمات با بيشترين وزنV اولين پردازش )در مجموعه اسناد آموزشي گره data“ براي دستهTFIDF كلمه با باالترين وزنN=25 تعداد ”Mining Word Weight Word Weight Word Weight Data 0.0483205 Proceedings 0.010879 2 classification 0.0062527 mining 0.0460734 Algorithm 0.010284 1 Trees 0.0062364 Rules 0.0335740 Conference 0.007768 0 Sigmod 0.0062189 databases 0.0300237 Machine 0.007652 1 Acm 0.0060270 knowledge 0.0290816 research 0.007552 8 Relational 0.0053060 association 0.0260618 ieee 0.007429 3 intelligence 0.0049911 discovery 0.0247404 decision 0.007410 5 Induction 0.0047303 41 Large 0.0184948 information 0.007255 4 دومين پردازش (يافتن زوج كلمات با بيشترين وزن )رخداد همزمان ”data mining“ زوج كلمه با بيشترين وزن رخداد همزمان در گرهN =25 تعداد Word1 Word2 Co_o Weight Word1 Word2 Co_o Weight Aggregation data 0.0629474 Geographic Data 0.0693333 Aggregation Mining 0.0589019 geographic Mining 0.0609187 Association Mining 0.0571912 integration Data 0.0642788 Baskets Mining 0.0591086 Query Data 0.0587437 Clustering data 0.0590085 Relational Data 0.0589771 Clustering mining 0.0586942 Spatial Data 0.0683995 Correlations mining 0.0609724 Spatial Mining 0.0621446 Cubes data 0.0736354 technology Data 0.0620216 Cubes mining 0.0668675 Tools Data 0.0602633 Dbminer data 0.0901771 Users Mining 0.0583686 Dbminer mining 0.0783960 warehouse Data 0.0950729 Dimensional data 0.0743458 warehouses Mining 0.0794421 Dimensional mining 0.0716238 42 )سومين فرآيند (يافتن عبارات به جاي كلمات ”data mining“ عبارت دو كلمه اي با باالترين احتمال رخداد در گرهN =25 تعداد Term Weight Term Weight Term Weight Association rule 0.0023453 062 spatial data 0.00037910 43 mining application 0.00020561 59 Large database 0.0018312 665 Interesti ng rule 0.00034697 68 Level association 0.00020561 59 Data mining 0.0014907 152 Databas e system 0.00034697 68 attribute oriented 0.00020561 59 0.0009895 264 machine learning 0.00032127 48 0.0006618 261 multiple level 0.00028272 18 0.0006232 731 large set 0.00026987 08 0.0005461 672 spatial database 0.00025701 99 relational database Decision tree knowledge discovery relational data 43 0.0005140 0.00022489 Base mining learning algorithm inductive learn discovered association 0.00019919 04 0.00019276 49 0.00019276 49 0.00019276 49 ادامه-)(يافتن عبارات به جاي كلمات سومين فرآيند ”data mining“ عبارت سه كلمه اي با باالترين احتمال رخداد در گرهN =25 تعداد Term Weight Term Weight mining association rule 0.00000129 81 attribute oriented induction 0.00000034 07 multiple level association 0.00000051 92 data mining system 0.00000030 83 Level association rule 0.00000051 92 generalized association rule 0.00000027 58 discovered association rule 0.00000048 68 object oriented database 0.00000024 34 spatial data mining 0.00000037 32 data mining technique 0.00000019 47 44 AKU-CSمعماري User Interfa ce Query Expansion Component User's Query (Itemized) Results Expanded Query (Itemized) Re-Ranking Component Query Manage r AKU-CS Middleware 45 Original User's Query Results Domain Specific Concept Hierarchy Query Expander Focused Crawler (Cora) Index Database آزمايشات پرس و جو در معماري AKU- ‏CS ارائه پرس و جوي “ ”Reinforcement Learning Introductionبدون توسعه پرس و جو توسعه پرس و جو با استفاده از DSCH ‏Vسعه 300نتيجه اول برگردانده شده انتخاب و بر اساس ميزان شباهت با جستجوي تو يافته دوباره رتبه بندي گرديد سند فوق در رتبه بندي مجدد با پرس و جوهاي مشابه با فوق در 5نتيجه اول بود 46 استدالل بر پايه موارد ()CBR ‏Vيست ‍CBRچ ؟ ‏Vته كVه مVورد ‏Vه هايگVذش VمVجدد از تVجرب ‏Vه ‏Vتفاد ‏Vس ‏Vه ا ‏VتدالVلبVر پVاي ‏Vس CBRنVوعياز ا VبVا مVوارد ‏Vه ‏VديدمVشاب ‏Vلج ‏VلمVسائ ‏Vيح VمVيشVوند بVرا ‏Vيده نVام عناصر مورد در CBR )Problem, Solution and Outcome (P, S, O اجزا يك سيستم CBR معيارهاي تشابه حافظه (پايگاه داده) موارد دانش تطبيق موارد قبلي بر مورد جديد 47 V ‏Vنه ‏Vم ‏VستجويبVا دا ‏Vهايج ‏VيمVوتور CBRبVرا )DSSEV ‏Vاص( خ اهداف استقاده از ‍CBRدر DSSE ‏Vهاي مشابه اجتناب از جستجوهاي مجدد براي پرس و جو يادگيري از جستجوهاي گذشته براي افزايش دقت نتايج موتور جستجو به جستجوهاي مشابه با جستجوهاي قبلي چرا در DSSEقابل استفاده از است؟ دو مطالعه مجزا بر روي موتورهاي جستجويَ Altavistaو Exciteبخش قابل توجهي از پرس و جوها بر روي موضوعات مشخص و مشابهي رخ مي دهند. Vها مي توانند بر روي هر موضوعي در موتورهاي جستجوي همه منظوره پرس و جو ارسال شوند. مطالعات پرس و جوهاي از لحاظ مفهومي مرتبط را در نظر نگرفته اند. بر اساس يك تحليل كيفي مي توان انتظار داشت تعداد پرس و جوهاي مشابه در ‏Vتورهاي جستجوي با دامنه خاص قابل توجه باشد. مو 48 يكپارچه براي موتورهاي جستجوي باV معماري )AKUSearchEngine( دامنه خاص User Query 1 User Interface Query Expansion Component Natural Language Parser Query (Question) + Category User Response 2 5 Modified Query Query Expander Results Keywords & Concepts & Category. Case Databases Reasoning Unit Case Based Reasoning Component 49 Domain Specific Concept Hierarchy 3 4 Focused Crawler Index DB WWW V ‏Vنه ‏Vم ‏VستجويبVا دا ‏Vهايج ‏VيمVوتور CBRبVرا )DSSEV ‏Vاص( خ پايگاه داده موارد شامل پرس و جوي كاربر دسته متناظر پرس و جو در DSCH ‏Vجود ‏Vتو ‏Vج در صVور URLهاينVتاي امتياز صفحه (دريافت شده از موتور جستجوي اصلي) معيار تشابه موارد ‏Sim(New_Case, Old_Case) = w1  Query_Similarity + ‏w2  Class_Similarity ‏w1+ w2 =1 50 V نهV مV ا داVستجويبV هايجV وتورVيمV راV بCBR V هV مV ادا-)DSSE(اصV خ User Query Similarity Simple edit distance measure based on Levenshtein distance algorithm TFIDF (Term frequency * Inverse Document Frequency) Class similarity Sim(K3, K4) = Struc_Sim(K3, K4) * Bag_of_Word_Sim(K3, K4) >K3, K4< K K2 K4 1 LK L L = Level_diff (<K3, 2 K4>, K3) + Level_diff (<K3, K4>, K4) Struc_ Sim 51 K3 K1 V نهV مV ا داVستجويبV هايجV وتورVيمV راV بCBR V هV مV ادا-)DSSE(اصV خ 1 , K1=K2 Bag_of_Word_Sim(K1, Term_Sim(K , 1,K2) K2) = Otherwise num(CW(K1,K 2)) n Term_ Sim(K1, K2) w1   wK1(CWi (K1,K 2))  wK 2(CWi (K1,K 2))  num(W(K1,K 2)) i1 num(CT(K1,K 2)) m w2   wK1(CTi (K1,K 2))  wK 2(CTi (K1,K 2)) num(T(K1,K 2)) i1 w1 + w2 = 1 (manually defined) CW = Common Words than one word) 52 W = Words CT = Common Terms (more V ‏Vنه ‏Vم ‏VستجويبVا دا ‏Vهايج ‏VيمVوتور CBRبVرا ‏V ‏Vه ‏Vم ‏Vاص( -)DSSEادا خ تطبيق موارد رتبه بندي مجدد URLهاي جواب در مورد مشابه به مورد جديد ادغام نتايج موارد مشابه و رتبه بندي مجدد اگر چندين مورد داراي تشابه بااليي هستند 53 نتيجه گيري كاوش متمركز وب با استفاده از يادگيري تقويتي توسعه روشهاي Coraبراي محاسبه مقدار Qيادگيري تقويتي و پيشنهاد روشهاي جديد استفاده از دسته بندي كننده ماشينهاي بردار پشتيبان براي اولين بار در كاوشگرها و مقايسه با نتايج قبلي ارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي كاوشگر مانند متن اطراف ابرپيوند ،تعداد دسته ها در دسته بندي كننده و مقدار گاما در محاسبه Q توسعه پرس و جوي كاربر در كاوشگرهاي متمركز معرفي ابزار "سلسله مراتب مفهومي با دامنه خاص" و استفاده از آن براي توسعه خودكار پرس و جوي كاربر در معماري CSََ AKU- طراحي ،پياده سازي و ارزيابي الگوريتمي جديد براي ساختن خودكار "سلسله مراتب مفهومي با دامنه خاص" با استفاده از اسناد آموزشي ‏Vرهاي جستجوي با پيشنهاد يك معماري يكپارچه (با ارائه چارچوب فرمال ) براي موتو دامنه خاص كه از "سلسله مراتب مفهومي با دامنه خاص و استدالل بر پايه موارد براي يادگيري از جستجوهاي قبلي استفاده مي كند 54 نتيجه گيري -ادامه بهبود كارآيي كاوشگرهاي متمركز يادگيري تقويتي استفاده از دسته بندي كننده SVMsباعث يافتن بسيار سريعتر صفحات هدف در نيمه نخست كاوش مي شود كه در كاوش متمركز بسيار مهم است. 1/0 مقدار گاما: تعداد دسته ها 3 :دسته متن درهمسايگي: كاوشگرهاي با دسته بندي كننده :SVMsمتن مرتبط كاوشگرهاي با دسته بندي كننده :NBمتن نزديك بهترين روش كاوشnb_n_4_cut_g0.3 : استفاده از روش مكاشفه­اي در كاوش منجر به بهبود كارآيي كاوش و مخصوص ًا منجر به يافتن سريعتر صفحات هدف در اوايل كاوش ميشود. استفاده از روش تغيير خط مشي منجر به بهبود كارآيي كاوشگرهاي ميشود. 55 نتيجه گيري -ادامه بهبود مكانيسم هاي پرس و جوي كاربر با توسعه خودكار پرس و جو ،كاربر نيازي به فراهم آوردن اسناد اوليه مرتبط در جستجو ندارد. الگوريتم پيشنهادي براي ساخت خودكار DSCHمجموعه لغات مرتبط مفهومي را بصورتي موثر مي بايد. استفاده از DSCHبراي توسعه پرس و جوي كاربر در معماري AKU-CS منجر به بهبود كيفيت نتايج موتور جستجو مي شود معماري AKUSearchEngineبا بهره گيري از DSCHو CBRامكان ارائه نتايج با كيفيت و دقت بيشتر را به كاربر فراهم مي آورد. 56 پيشنهادات آينده كاوشگرهاي متمركز يادگيري تقويتي بهبود روشهاي كاوش متمركز وب (با موضوع خاص) بوسيله "سلسله مراتب مفهومي با موضوع خاص" ‏Vيا) دسته بندي كننده هاي متن تطبيقي (پو آزمايش روشها بر روي بستر آزمايش شركت ها (يك صفحه هدف) يادگاري ساختار وب با استفاده از يادگيري تقويتي مكانيسم هاي پرس و جو استفاده از دانش مربوط به عالئق و زمينه هاي تحقيقاتي و يا كاري كاربر در توسعه پرس و جو تشخيص خودكار دسته مورد نظر در DSCH استفاده از الگوريتم هاي قويتر به جاي الگوريتم ساده TFIDFدر يافتن كلمات مرتبط اطالعات درون شاخص تهيه شده از صفحات وب (در موتور جستجو) به جا و يا در كنار شاخص اصلي ،بصورت "مورد" در يك پايگاه داده درون كاوشگر متمركز نگهداري شوند 57 مهم ترين مراجع مورد استفاده Chakrabarti S., Van Der Berg M., and Dom B., Focused crawling: a new approach to topic-specific Web resource discovery, In Proceedings of the 8th International World-Wide Web Conference (WWW8), 1999. McCallum A. K., Nigam K., Rennie J. and Seymore K., Automating the construction of internet portals with machine learning, In Information Retrieval Journal, 1999. Rennie J. and McCallum A., Using reinforcement learning to spider the web efficiently , In Proceedings International Conference on Machine Learning (ICML), 1999. Joachims T., Transductive Inference for Text Classification using Support Vector Machines, Proceedings of the International Conference on Machine Learning (ICML), 1999. Kaelbling L. P., Littman M. L., and Moore A. W., Reinforcement learning: A survey, Journal of Artificial Inteligence Research, pp. 237-285, May 1996. Sutton R. S., Barto A. G., Reinformcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998. Han J. and Fu Y., Dynamic Generation and Refinement of Concept Hierarchies for Knowledge Discovery in Databases, AAAI'94 Workshop on Knowledge Discovery in Databases (KDD'94), Seattle, 1994, pages 157-168. Bartsch-Spörl B., Lenz M. and Hübner. A., Case-Based Reasoning – Survey and Future Directions, Knowledge-Based Systems, Lecture Notes in Artificial Intelligence, Vol. 1570, Springer-Verlag, Berlin, pp. 67-89, 1999, 58 مقاالت ارائه شده H. R. Motahari Nezhad, A. A. Barfourosh, Expanding Reinforcement Learning Approaches for Efficient Crawling the Web, The World Multi Conference on Systematics and Cybernetics and Informatics (SCI’2003), July 27 - 30, 2003, Orlando, Florida, USA. To Appear. A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning Approach to Domain Specific Search Engines, International Journal of Applied Science and Computations, USA, To Appear. H.R. Motahary Nezhad, A. A. Barfourosh, A New Approach to Expand User's Query in Domain Specific Search Engines, in Proceedings of Eight International Computer Society of Iran Conference (CSICC'2003), Mashhad, Iran, 25-27 February, 2003. A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning Framework for Domain Specific Search Engine, Proceedings of The 2002 International Arab Conference on Information Technology (ACIT’2002), Vol 1., Qatar, pp. 20-29, December 16-19, 2002. 59 ادامه- مقاالت ارائه شده H. R. Motahary Nezhad, A. A. Barfourosh, Focused Crawling Trends as a New Approach to Web Crawling: Problems and Limitations, First National Computer Conference (NCC2002), Mashhad – Iran, December 2002. A. A. Barfourosh, H.R. Motahary Nezhad, Design of an Information Integration Environment based on Active Logice, Technical Report in Department of Computer Engieeering, Amirkabir University of Technology, Tehran – Iran, November 2002. A. Barfourosh and H. R. Motahary Nezhad, A New Approach to Information Retrieval based on Case Base Reasoning and Concept Hierarchy in Cora, Accepted in Third International Conference on Data Mining Methods and Databases for Engineering, Finance and Other Fields (Data Mining 2002), Bologna, Italy, September 25-27, 2002. H. R. Motahary Nezhad, Toward Next Generation Search Engines, in proceedings of 5th student computer conference, University of Science and Technology, May 22-24, 2002, Tehran - Iran. 60 ادامه- مقاالت ارائه شده A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D. Perlis, ALLI: An Information Integration System Based on Active Logic Framework, in Proceedings of Third International Conference on Management Information Systems , Greece, 2427 April 2002, pp.339-348. http://www.cs.umd.edu/~anderson/papers/MIS2002.pdf A. A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D. Perlis, Information Retrieval in WWW and Active Logic: Survey and problem definition, Technical Report in Department of Computer Science of University of Maryland and Institute of Advance Computer Science in University of Maryland, USA, CS4291, 2002. http://www.cs.umd.edu/Library/TRs/CS-TR-4291/CS-TR-4291.pdf 61 با تشكر و سپاس از حضور و توجه شما 62

62,000 تومان