صفحه 1:
بازيابي کارا و موّثر اطلاعات وب با استفاده از 2
دستاور دهاي یادگیری ماشین: طراحي و تکامل انشا نی ام کی
روشهاي بأًدكيري تقوبتي در کاوش متمرکز 2
جلسه دفاع از بایان نامه کارشناسي ارشد
دانشکده مهندسي کامپیوتر
دانشجو:
حمیدرضا مطهري نژاد
استاد راهنما:
دکتر عبداله زاده بارفروش
PP etedt oad CPPevtve ‘ePorwatos Retrteud لیوا Darker Learatry @pprowkes: Orestes
ومشاص 2 لج oP RetPorcewed Learctay oo Pond Oras
صفحه 2:
فهرست مطالب
مقدمه
دستاوردهای این پروژه
8 کاوش متمرکز وب
+ کاوش متمرکز وب با استفاده از بادگيري تقويتي
+ طراحي و پیاده سازي کاوشگر متمرکز يادگيري تقويتي
* نتایج حاصل از پیاده سازي و ارزيابي
9 توسعه مکانیسم هاي پرس و جو در کاوشگرهاي متمرکز
» معرفي “سلسله مراتب مفهومي با دامنه خاص (WOOL) ™
* ارائه الگوريتمي خودکار ,000 - پیاده سازي و ارزيابي آن
* ارائه معماري یکبارچه براي موتورهاي جستجوي با دامنه خاص
© نتيجه كيرى و بيشنهادات آينده
9 مقالات ارائه شده حاصل از پروژه
صفحه 3:
صفحه 4:
کاوش متمرکز وب
© كاوش متمركز وب به عنوان راه حلي براي با يابي اطلاعات وب
« صفحات مربوط به يك موضوع و با از نوع خاص را جستجو و كبي کرده؛ شاخصبندي و تكهداري مي
@ نتایج مورد انتظار از کاوش متمرکز
رین صفحات مربوط با کاوش کمترین ابرپیوند نامربوط
صفحه 5:
معماري کاوشگرهاي متمر کز
صفحه 6:
دستاوردهاي این پروژه
9 کاوش متمر کز وب با استفاده از يادگيري تقويتي
© توسعه روشهاي --ج0 براي محاسبه مقدار © يادكيري تقويتي و بيشنهاد روشهاي جديد
6 استفاده از دسته بندي كننده ماشينهاي بردار بشتيبان براي اولين بار در كاوشكرها و
مقایسه با نتایج قبلي "
@ ارزيابي تاثیر مقادیر متفاوت پارامترهای يك کاوشگر يادگيري تقويتي در کار آيي
جرج مانند متن اطراف ابربیوند؛ تعداد دسته ها در دسته بدي کننده و مقدار گاما در
© توسعه سر جوی کاربر در کاوشگرهاي متمرکز
4 معرفی ابزار "سلسله مراتب مفهومی با دامنه خاص" و اتفده از آن براي توسعه
خودکار پرس و جوي کاربر در معماري -600 009
» طراحيء» asl سازي و ارزيابي الكو ربتعي جديد براي يادكيري "سلسله مراتب مفهومي
با دامنة خاص"با از اسناد آموزشي
# پیشنهاد يك he وه (با ارائه جار جوب فرمال ) براي موتهرهاي جستجوي با
دامنه خاص که از سلسله مراب مقعومي با دنه خاص و آستدلال بر پیه مارد براي
يادگيري از جستجوهاي قبلي استفاده مي كن
صفحه 7:
© يادكيري تقويتي
© به جارجوبي براي يادكيري خط مشي بهينه از محاوره با يك محيط بويا و با
مكانيسم باداش و جزا اشاره دارد.
S. set of available States, A: set of available Actions,
T: SXA-S, transition Function
R: SXA5R, reward Function,
m: SA, Leamed Policy
Tz Received reward in tstep after
t=0 L starting from s,___Y discount ___]
factor,
V*(s) =max/" (5)
=
IC*, Optimal Policy, which maximizes the values of states, for all state s.
V*; Value Function of Optimal Policy
Q*: expected return of taking action a in state s, and thereafter
A(s.a) =maxJ" (sa) | sees
a
7 ده > وله + 0۹(
صفحه 8:
يادگيري تقويتي براي کاوش متمر کز
8 خواصي از يادگيري تقوبتي که آن را براي کاوش متمرکز
مناسب مي سازد:
* توانايي مدل کردن پاداشهاي تاخيري (آینده) حاصل از تعقیب ابرپیوندها
© امكان يادكيري از سعي و خطا - مناسب براي محيط هاي بويا و با تعداد داده
هاي آموزشي کم
« کار آيي به صورت پاداش در طول زمان قابل اندازه گيري است
9 مزیت کاوشگر يادگيري تقويتي بر کاوشگر متمرکز معمولي
* امکان در نظر گرفتن پاداش هاي آینده يك ابرپیوند در اولویت کاوش آن
صفحه 9:
نگاشت کاوش متمرکز به يادكيري تقويتي
9 توابع ۲ و )٩ مشخص هستند
« پاداشهاي آني Qewad Puccios) :6)
* سند مرتبط حاصل از كليك کردن ابرپیوند
© پاداشهاي آینده (ممسح عد :0)
* سند (اسناد) مرتبط حاصل از تعقیب ابرپیوند در چند سطح بعدتر
9 *عمل": تعقیب (پیمایش) يك ابرپیوند خاص ((ه بب« :0)
عسه)
* تعداد اعمال در اختیار» پویا و بزرگ
۵ احالت" شامل (صد < مد :6)
© مجموعه اسناد هدفي است که باید کاوش شوند.
* مجموعه پيوندهايي که یافته شدهاند.
صفحه 10:
نات کوش متمر دز بادگیری قويتي
ادامه
© مشكلات
« فضاي حالات بسيار بزرك است.
» تعداد اعمال در اختيار هم بسيار زياد است
© فرض هاي کاوشگر يادگيري تقويتي مسبت براي سادگي و
تعمیم مساأله:
* "حالت" مستقل از اینست که کدام اسناد هدف تابحال دیده شدهاند.
۴ تبدیل تمامی حالات به یک حالت
© ميزان ربط اعمال (ابربيوندها) به موضوع (هدف) ميتواند با کلمات در
همسايكي" ابربيوند متناظر با هر عمل مشخص شود.
" موتوان بين ابربيوندها تعميم انجام داد و آنها را بوسيله متن اطررافشان با هم مقایسه کرد
3
صفحه 11:
طراحي کاوشگر متمرکز بادگيري تقويتي
8 امکان بادگيري برخط
© طراحي کاوشگر يادگيري تقويتي در این پروژه
* فاز آماده سازي بستر آزمایش و پیش پردازش
* فاز يادگيري
* فاز آزمایش
صفحه 12:
© عدم امكان استفاده از
بايكاه هاي وب ايراني
© بستر آزمايش
* پایگاه هاي وب بخش هاي علوم
کامپیوتر چهار دانشگاه "
@vstvn. Brows Pa = 9
OCOwes
پسوند صنحات وب کپی
شده
پسوند فایلهای صبنحات
هدن (مقاله های تحقیتی)
Pe, pox, ۳2
ph, pA
نام دانشگاه
دانشگاه
بوستون
دانشكاه سرون
دانشگاه
پیتربورگ
دانشگاه
كاليفرنيا -
دیویس
مشخصات بستر آزمایش
تعداد صفحات
HTML
7365
10405
4104
1170
تعداد
ابرييوندها
44347
72600
12811
2731
تعداد مقالات
صفحه 13:
طراحي کاوشگر یادگیری تقويتي
(معماري بخش آماده سازي بستر آزمایش و پیش پردازش )
9
صفحه 14:
طراحي كاوشكر يادكيري تقويني
” (معماري بخش يادكيري]”
صفحه 15:
دسته بندي کننده هاي متن
8 دسته بندی کننده پیز ساده (مورد استفاده 39 (Cora
* روش آماري براي دسته بندي متن (احتمال تعلق يك متن به هر دسته)
* از روش بیز استفاده مي کند و کلمه "ساده" به اين معني است که احتمال
رخداد کلمات در هر دسته و سند را مستقل از هم در نظر مي گیرد.
* روش شناخته شده و پر کاربرد براي دسته بندي متن
© دسته بندي کننده ماشينهاي بردار پشتیبان (600)
© بر اصل "حداقل سازي خطاي ساختاري" در نظریه يادكيري محاسباقي تکیه
دارد
* یافتن قضیه ۲ که حداقل خطای مطلق را تضمین میکند» معادل یافتن چند
سطحي است که داراي حداکثر حاشیه با بردارهاي پشتیبان در داده هاي
آموزشي است
صفحه 16:
دسته بندی کننده های متن
(SVMS owes (دسته بني
© دلايل تناسب ماشينهاي بردار پشتیبان براي دسته بندي متن
« ابعاد زياد فضاي ورودي - راه حل -(500)به تعداد ويزكيها (صفات) بستكي ندارد.
@ تعداد کم ویز گيهاي غیر مرتبط
* نك بودن بردارهاي اسناد
© ماشينهاى بردار پشتیبان ملع
» روش ۲6000 يك نوع خاص از -(06)است که هدفش يادگيري از تعداد معدودي
داده آموزشي است 5 59
#_ در دسته بندي متن نسبت به الگوریتم -2000)به کار آيي بهتري دست یافته است
اج سس به جاي استقراء (مسح1) استفاده میکند
در استقراء يادكيرنده سعي ميكند تا به طريقه استقراء يك تابع تصميم را
اهر ی | يعهاي داده ها
دسته بندي کنیم. این مساله. هدف as ات
صفحه 17:
روشهاي محاسبه 0 در این پروژه
۶ روشهاي توسعه بافته از مد
* روش آني (2 دسته) 0 ار و ۱۳
* روش فاصله ۰ OB tke bok is 0 paper ts Q uke bebe
* روش آینده (3 دسته)
© آینده (4 دسته)
@ آینده (5 دسته)
@ آینده (موازي)
* تعداد مقالات تحقيقي
6 روشهاي جدید
* روش برش مقدار
© تغيير خط مشي
* روش مکاشفه آي صمت Cdrukties Q udues Por Pour choses - kreedtate,
= موی ,طلسم ۳۰ ) > وتو رون زد
Por two-steps, zery Por woe موی ,موس Por
32
Cue (Pow cheves):
صفحه 18:
طراحي کاوشگر بادگيري تقويتي
(فازآزمایش) . 7
Atext= 5 ۳
۳-1
صفحه 19:
پیاده سازي کاوشگر بادگيري تقويتي
© شرایط سخت افزاری
* پنتیوم 10 با پردازنده 0-۵/0 و با مقدار سح( برابر 512 مکابایت و
ديسك سخت40 گیگابایت
8 سیستم عامل و زبان برنامه نويسي
@ سیستم عامل لینوکس و زبانهاي بو و ن تحت این سیستم عامل
8 مولنه های آماده مورد استفاده
۳
Packene (OkesPiruia,...) © بو بو - نیج
۰ سل صو0 سا
Duckies OkesPer ۴ و0 بو
+ کدهاي غیر تجاري Ona
صفحه 20:
پیاده سازی کاوشگر بادگيري تقويتي
(تعداد آزمایشات انجام شده)”
عامل تاثیر گذار ضریب تاثیر
تعداد روشهاي پایه 8
مقدارهای مختلف گاما (1/0و 8/0 5/0)
تعداد دسته های آموزشی (3و 4و 5)
انواع متن در همسایگی (نزديك, مرتبط و تمام صفحه)
انواع دسته بندي (بیز ساده و ماشینهای بردار پشتیبان)
تعداد دانشگاه ها ( پايگاههاي وب بوستون برون» پیتربور گ و
کالیفر نیا -دیویس)
8 تعداد آزمایشها با تمامی تر کیب ها: 1200 آزمایش
۶ تعداد آزمایش انجام شده در این پروژه
+ 213*4=852
* روشهاي جدید: 30 آزمایش
oo | د | ده | تم | حر
صفحه 21:
پیاده سازی کاوشگر يادگيري تقويتي
«اجرآي خودکار کاوشگر
© مدير اجرا
et Test Dawe
.عاد ما سوق
زر بل م0
Qoke werep of G-Ockes of rack ohare ...:
] boyes chester (Robo) cod tetil tic port © © ©...
(Rus he test woken واه مرو سم
Prat COOs chester (racbow wit ) mi dPPerect port (OCP)
Quo he test wie SOOs chee Pier
صفحه 22:
پیاده سازی کاوشگر بادگیری تقويتي
(بر نانقه تحلیل نتایج و تولید نمودارها)
a; 82 03 04 os 08 oT 0۵ ۶
Line Taveree
۳ “an Reine Msn For
صفحه 23:
نتایج پیاده سازی
(مقایسه دسته بندي کننده هاي 313" و 5۷5 در بستر آزمایش)
Ouwbere (Byeraqed over Puctversittes) عو0 وو0۳
atu
Three
۲
9"
wan 00 wan OOD» 0 جوم
و
صفحه 24:
معبار اول: درصد مقالات بافته شده به درصد صفحات کاوش شده
معیار دوم: میزان پاداش دريافتي در طول اجرا توسط کاوشگر
Integral Sum = 0 // Calculating integral (space above curve)
For index = 0 to Paper_number do
If (index/Paper Number <= Percent)
Integral Sum = Integral Sum + Link Number[index]
// Calculating integral of under curve
Integral Sum = Univ Link Number * Paper Number -
Integral Sum
// Calcultaing the percent of overall achieved reward
Integral Sum = Integral_Sum / (Univ_Link Number *
Paper Number)
معیار سوم: تعداد مقالات تحقيقي کاوش شده تا درصد خاصي از کاوش
صفحه 25:
مقایسه تأثیر دسته بندي کننده در کار آيي
کاوشگر يادگيري تقويتي - معیار اول
صفحه 26:
بادگيري تقويتي - معیار دوم
6096 سا سس 0 6016 مده
موم ©9760 906
و awd 6[ ۵4 _سد و awa
70.088 29.900 وج
و nw0.9 [0 nw0.9 9[ سهء
200 90
nw 00 | 9 وه سو| وووود| وه مد
موم
bod [72000 و ومع 7000[ وه
70,080 76,907
wos |e se praage [wos |e
0 96.008 جووود
و wos و ومع | و wos
Ir ۲
20,708 همووه +
loa 9 7 هد - -00 | ههجومم oa
©06.© 69.008 وووو2
os 9 3 29 9 09
6016 سس
70.060
۶ ۵4 _سد
20.700
و ۵8 سدء
9۵ج وه مد
20.700
و wos
666 | _ وه
20
wos |e
وموم
oa 9
76.909
ose |e
صفحه 27:
مقايسه قاثير مقدار کاما در کار آبی pols
Crows 10%
66.660
9
مه
eed
هوجو
ee
60.7008
e
مهو وو
£02
66.666
00
0
6
96.069
Be
PRET
0 مه
0 سم
wo 0.00
سح
0.0004 —|
<2
0.000
0.00
موه
۹
4
0 مس«
0 مد
0 مد
aw.
&_0.0000
0.000
we _0.00
4ب
باد گيري تقويتي - ادامه:
6 سوق
0 سم
0 ۵00۵ سو
ee 0
وووموجو
© 00 سو
0و
و 00,ه سوه
0و
66 سوه
مججمووو
9 ۵0000
جوموووو
|e ۵0۵0
و ,وه
9 0
ووووو,ووه 0
لحب Gas Ree
صفحه 28:
مقایسه تاثیر تعداد دسته ها در کا رآيي
کاوشگر يادگيري تقويتي
Okes Lot SO%
2900
رسد ee
70.080
رسد 6
70.70?
wo Pe 4
2909
سرد 76
مهم
حرط oe
ومع
جرد or
27.8680
وا ee
00 0
2290999
a _سد
عممهم 66
6 عومد
99990
wo Pe ee
7e.e@0860 |
0 1 | 7 ایا
٩6666
wb Pow 9
7
000۵2 وه عه يها
72-69
وه سا
سس سس
0 06
90.666
3 رسد
76.0068
@ حمارسد
77.0708
ove Pur 9
006666 | سرد
©066.©هم
( هم حرط
۲
©666. 6م سح
dove 00
صفحه 29:
مقایسه تاثیر متن همسايگي در کار آيي
کاوشگر ياد گيري نقويتي
Pex bot 6
20
هم رسد
2۵00
66 ام رسد
22909
wo Ad ee
80.000
66 رد
2۵0
66 اسرد
2099
28 اب
70.200
Ore 5
سس =
Text IDO%
999906
مهم سور
٩67007
ام سم ee
99000
ww Ad er
76.4080
how “Tea,
5 66.7006
bol 9
96600 J]
yak موه ۶
2۵9700۵
ww 90
بسچ
6 4
وموووجه
جع رسد
?70.2807
وه ام رسد
20ص
99 رسد
عمووووه
169 رل
60009
2 اسر
720
6e فرب
0.998060
cod er
و
صفحه 30:
مقایسه کار آیی کاوشگرهاي يادگيري تقويتي
بآ جمیع پار امترها
Drtod OO%
وووومم وه ی هرد
9 ,ره رسد
وموووه وه
6 490.6 9 6 رمد
جاب بيات يانه
8 0.9 ره رسد
206 مسدزه رسد
۱
9 0.8 رو رسد
ه06
9 سره رسد
ممم م م سره رسد
O7.PPOFO ره رسد
Drtod IO%
مووو6,ج
bP 0.9 8
5.000
6 مسر رس
569000
ww PP POS 6
©6666. 66
es 06ر6 رس
9909
6 سدع © سود
990906
696 رو رد
9990960 ومسرو رد
0 .یره رسد
6960 شرم عه
صفحه 31:
مقایسه کار آيي کاوشگرهاي يادگيري تقويتي
با جمیع پارامترها-ادامه
6 لاه(
60 هرح م مره
PO.
یه رد
۳ 0
°°. 890072
vbr PsbS 8
wb 9 pert. وومجو دج
© رل
م6000 0م
0 اب(
9 رسد
00,90999 یس ورد
68999 ?0
6 رسد
هوجو
۵ 0
ومممو وه
8
65699
9
68.2870?
5
مسر هی
رسد
یس وود
سرد
۰ هه رس
صفحه 32:
روثی مکاشفه اي براي بهبود کا رآيي کاوشگر
باد كيري تقويتي
مب
0.0088
9
0.0088
9
0229
0.0000
0.0089
9
224
e
0.0089
0000
0.6006
o. need
9
000
9
ووموه
9
۵0096
2
وه
2
0.0089
9
0006+
3
0.00840
8
0.0090
@ord
Derk
0.4960
9
0.0788
9
0.0780
9
0.06©©
9
0.0980
e
0060©
9
0
0.0060
3
0.0008
0.0088
ord
(MH
صفحه 33:
روثی مکاشفه اي براي بهبود کا رآيي کاوشگر
یادگيري تقويتي - ادامه
صفحه 34:
بهبود کا رآيي کاوشکر Poet
تغییر خط
RL Crawlers with Policy Change (SVMs ancl NB classifers exchenge)
80 6020 SC
نا
صفحه 35:
مقایسه کاوشگرهاي بادگيري تقويتي» متمر کز
و اول-سطح
RL Crawler Resuit Comparison
08
3
Bos
Soa
02
01 02 03 +04 05 08 of 08 08
Links Traversed
صفحه 36:
توسعه مکانیسم هاي پرس و جوي وب در
كاوشكرهاي متم ركز
© مشاهده واقعيت ها و كمبودهاي زير
@ تطابق دقيق كلمات كليدي در يافتن جواب برس و جوي كاربران
6 عدم استفاده از دانش حوزه مورد جستجوي کاربر جواب دادن به برس و جوي كاربران
© عدم استفاده از دانش علایق و پیش زمینه هاي كاري و علمي کاربر
8 راه حل پيشنهادي
* _توسعه پرس و جوي کاربران با استفاده از يك سلسله مراتب مفهومي با دامنه خاص
مزاياي راه حل پيشنهادي
© فرآيند توسعه برس و جو يك فرآيند خودكار است
© كاربر نيازي به فراهم آوردن اسناد مرتبط به موضوع به عنوان ورودي سيستم فدارد.
aly مراتب مفهومي با دامنه خاص از طريق يك فرآ بند آماري بر روي متن ياد كرفته
مي شود
صفحه 37:
سلسله مراتب مفهومي با دامنه خاص
8 سلسله مراتب مفهومي (0) چیست؟
+ ,0/1 مجموعصاواز کرت هاومفیوماً مرتبطلسکه در بانترتیبجزیوتب
hos
سلسله مراتب مفهومی با دامنه خاص ©
ست ١ نوعي از سلسله مراتب مفهومي که شامل لغات فني يك دامنه خاص ۰
دستاورد این پروژه در اين زمینه 8
»_طراحي و پیاده سازي الگوریتم مبتتي بر يادگيري براي ساخت خودکار
O6CL
or
صفحه 38:
7 -مثلل
صفحه 39:
مراحل الگوریتم ساخت خود کار 15017
Gerd Process
سح له (Prockry
الب حور
Dords
(Piercdhay Dercos امس
oF separated ord
Orawtery ad Pre-
Provessieg |
Ouutag the setevied
Wierarchy od Pre
Provesstag he
ances
Prot Provess
بل high
weighted words
(P10)
۸۳۳۱۵۴: همه( و( ‘werse Ooanvedt Prequeay
6ه
صفحه 40:
مرحله کاوش و پیش پردازش
© كاوش سلسله مراتب انتخابي (-02) و كپي کردن اسناد
آموزشي
حذف بخشهای ثابت (سرآیند و زیر نویس) و نام مولفان
براي (Cuder’, “RePerewes”, ...words”) OY bio
8 بستر آزمایش
4 100 سند آموزشي از هر گره مسبت كپي و به عنوان مجموعه آموزشي
استفاده شد
* هو سند اطلاعاتي راجع به يك مقاله در موضوع گره (نام» onde نلم مراجع و سس
مقالاتي که به این مقاله اشاره کرده اند)
صفحه 41:
اولین پر دا زشی (یانتن کلمات با بیشترین وزن 1۲۳1۳
در مجموعه اسناد آموزشي گره)
تعداد ۱-25 کلمه با بالاترین وزن 1۳1۳۳ براي دسته "هام1
"Mining
لسك
227
22 4
0.0062189
0.0060270
0.0053060
2221
0.0047303
1
ع
سب
Ore
1
لت
0.010879
2
0.010284
1
0.007768
0
0.007652
1
0.007552
8
0.007429
3
0.007410
5
222255
4
اج
0.0483205
0.0460734
0.0335740
0.0300237
2216
228
0.0247404
0.0184948
۱
صفحه 42:
دومین پردازش (یافتن زوج كلمات با بيشترين وزن
ويج رین
0.0693333
0.0609187
0.0642788
0.0587437
0.0589771
0.0683995
0.0621446
0.0620216
0.0602633
0.0583686
0.0950729
0.0794421
تعداد 225 ۱ زوج کلمه با بیشترین وزن رخداد همزمان در کره "بجممه موی"
Ore
Data
Mining
Data
Data
Data
Data
Mining
Data
Data
Mining
Data
Mining
رخداد همزمان)
Oot ۷ 09
Geographic | 0.0629474
geographic | 0.0589019
integration | 0.0571912
Query | 0.0591086
Relational | 0.0590085
Spatial | 0.0586942
Spatial | 0.0609724
technology | 0.0736354
Tools | 0.0668675
Users | 0.0901771
warehouse | 0.0783960
warehouses | 0.0743458
0.0716238
Orne
data
Mining
Mining
Mining
data
mining
mining
data
mining
data
mining
data
mining
مه
‘Aggregation
Aggregation
Association
Baskets
Clustering
Clustering
Correlations
Cubes
Cubes
Dbminer
Dbminer
Dimensional
Dimensional
صفحه 43:
سومین ف رآیند (یافتن عبارات به جاي کلمات)
او
(0.00020561
59
(0.00020561
59
(0.00020561
59
(0.00019919
04
۳
49
(0.00019276
49
(0.00019276
49
تعداد 25- ۱۱ عبارت دو کلمه ای با الانرین احتمال رخداد در کره "یسمبب "de
و
mining
application
Level
association
attribute
oriented
Base mining
learning
algorithm
inductive learn
discovered
association
Oeiht
000037910
43
7 .ه22
68
7ش .ه22
68
(000032127
48
22, 2
18
7ه
08
(0-21
99
0.00022489
Tern
spatial
data
Interesti
ng rule
Databas
e system
machine
learning
multiple
level
large set
spatial
database
۳۳
enh
0.0023453
062
0.0018312
665
0.0014907
152
(0.009895
264
2606618
261
2 ص2
731
0.005461
672
0.0005140
Dern
Association
rule
Large database
Data mining
relational
database
Decision tree
knowledge
discovery
relational data
صفحه 44:
سومین فر آیند (یافتن عبارات به جاي کلمات)- ادامه
Weight
0.00000034
07
0.00000030
83
2222027
58
222 224
34
2222209
47
Term
attribute oriented
induction
data mining system
generalized association
rule
object oriented
database
data mining technique
Weight
0.00000129
81
0.00000051
92
0.00000051
92
0.00000048
68
22 7
32
اعبارت سه كلمه اي با بالاترين احتمال رخداد در كره "بسحب ممق"
Term
mining association rule
multiple level
association
Level association rule
discovered association
rule
spatial data mining
we
صفحه 45:
معماري 281617-05
User's Query Query Expansion
Component
Expanded Que:
y دا
AKU-CS Middleware
صفحه 46:
آزمایشات پرس و جو در معماری AKU-
cs ۱
© ارائه برس و جوي O98” RerPorcewedt Learctey Tieton”
توسعه برس و جو
243. How to Make Software Agents Do the Right Thimg: An Introduction to
Reinforcement Learning 1
Saiindes Singh Peter Norvig David Cohn (1996)
BBL Word etches: Reintorement Score
Deis تش بويع
Ease Ener tewningletoduction waa
6 توسعه پرس و جو با استفاده از 0۵04
+ 300 نتبجه اول برگردانده شده انتخاب و بر اساس میزان شباهت با جستجوی توسعه
يافته دوباره رتبه بندي كرديد ١
© سند فوق در رتبه بندي مجدد با پرس و جوهاي مشابه با فوق در 5 نتیجه اول بود
eo
صفحه 47:
استدلال بر پایه موارد (61518)
Cuma OBR
نوعراز لست لاير بليماستفاهه عجدد از تجربه هاوكنشته كه عورد 068 ©
نسامیده ميپُسوند بسولیحلمسلنلجد یدحشلبه بسا حوارد
COR عناصر مورد در @
Probew, Orton aad Ourvwe (P, 6,0) ©
006 اجزا يك سستم 8
معيارهاي تشابه ©
نه حافظه (بايكاه داده) موارد
تطبیق موارد قبلي بر مورد جدید Hild
we
صفحه 48:
5 بيلوموتوويهاوجستجووبا دلمنه
۱ خام(0۹5 -
اهداف استقاده از 006 در 0666
@ اجتناب از جستجوهای مجدد برای پرس و جيهاي مشابه
* يادكيري از جستعوهاي كذشته براي افزایش دقت نتایج موتور جستجو به جستجوهاي
مشابه با جستجوهاي قبلي
6 چرا در 060606 قابل استفاده از است؟
© دو مطالعه مجزا بر روي. موتورهايی جستجوي »ت0۷ و «<) بخش قابل توجهي از
پرس و جوها بر روي موضوعات مشخص و مشابهي رخ مي دهند. ۲
© در haat جستجوي همه منظوره پرس و جو ها مي توانند بر روي هر موضوعي
ارسال شوند:
4 براساس ی یلک نی تون ار دنت شمه پرس و وهاي ما
7 يك تحليل كيفى مى توان انتظار داشت تعداد د جوهاي مشابه د
تتورهای جمتجوي باکت ات دا برس و جوهاي ماه در
ee
صفحه 49:
معماري یکبار چه براي موتورهاي جستجوي با
دامنه (AKUSearchEngine) .~G
مه به6
ات
دح
=
qa
Over
S|) سیم
صفحه 50:
5 بيلوموتوويهاوجستجووبا دلمنه
۱ + خام(055۳) "
6 پایگاه داده موارد شامل
» پرس و جوي کاربر
* دسته متناظر پرس و جو در 060
+ 20 هاونستلیج در صووتوجود
* امتیاز صفحه (دریافت شده از موتور جستجوي اصلي)
۶ معیار تشابه موارد
Cro(Drw_Owr, OM_Owe) = ull X Query_GOxvtety +
X Okes_Grotrip هر
ult wO =
صفحه 51:
+1 بیلمهوتمیهایهستجووبا دلمنه
خاص(55۳() - ادلمة
Over Query Crotty ©
OF Ohopke ell totaace wrecare bred oo Levecthisa cts okpr isc
@ DPOE (Tere Prenewy * مه وه Preqewy)
6 مود مان
66, 6( - fo}
Ginw_Oro(KO, KP) * KK, Ky 20 ا
جیوه 4 6), 6( « on No ۳
Struc Sieh GS درو
<a 7
با = bevel APP (<023, KP>, KO) + Level_dPP (<KO, KP>, KP)
صفحه 52:
+1 بیلیهوتورهایجستجووبا دلمنه
خاص(:]551() - ادلمه
1 4
کرک ۳ رح Sms ro
2 “Otherwise
i K,, Kp
Term SinbK,, K;) )یز -((جر رک تج (+
nutkCT{Ky Ky))
dR) CRED)” Wiel CHK KD
+ سح ره مر O = ors
OO - سول - 0 عس) سول Pers (some
toa var werd)
صفحه 53:
بیلویوتووهایجسنجووبا ملمند
۱ خاص(55۳()- ادلمه
8 تطبیق موارد
© رتبه بندي مجدد 269 هاي جواب در مورد مشابه به مورد جدید
* ادغام نتایج موارد مشابه و رتبه بندي مجدد اگر چندین مورد داراي تشابه
بالايي هستند 1 1
ee
صفحه 54:
نتیجه گيري
9 کاوش متمر کز وب با استفاده از يادگيري تقويتي
© توسعه روشهاي --ج0 براي محاسبه مقدار © يادكيري تقويتي و بيشنهاد روشهاي جديد
6 استفاده از دسته بندي كننده ماشينهاي بردار بشتيبان براي اولين بار در كاوشكرها و
مقایسه با نتایج قبلي "
@ ارزيابي تاثیر مقادیر متفاوت پارامترهای يك کاوشگر يادگيري تقويتي در کار آيي
جرج مانند متن اطراف ابربیوند؛ تعداد دسته ها در دسته بدي کننده و مقدار گاما در
شش وی کاربر در كاوشگرهاي متمرکز
4 معرفی ابزار "سلسله مراتب مفهومی با دامنه خاص" و اتفده از آن براي توسعه
خودکار پرس و جوي کاربر در معماري -600 96
» طراحيء بياده سازي و ارزيابى ١ جدید براي ساختن خودكار "سلسله مراتب
iano بان ساي و روطي الور عير باد براي ساختن خوه كار الملسله درا
© بيشنهاد يك معماري يكبارجه (با ارائه جارجوب فرمال ) براي موتورهاي جستجوي با
دامنه خاص كه از "سلسله مراتب مفهومي بأ دامنه خاص و اسندلال بر پایه موارد براي
يادگيري از جستجوهاي قبلي استفاده مي کند
or
صفحه 55:
نتیجه گيري - ادامه
9 بهبود ahs کاوشگرهاي متمر کز يادگيري تقويتي
6 استفاده از دسته بندي کننده 6000 باعث يافتن بسیار سریعتر صفحات هدف
در نیمه نخست کاوش مي شود که در کاوش متمر کز بسیار مهم است.
* مقدار گاما: 1/0
© تعداد دسته ها: 3 دسته
© متن درهمسايكي:
* کاوشگرهای بادسته بندى كننده 8000(2): متن مرتبط
* کاوشگهای بادسته بندی کننده 6060: متن نردیک
© بهترین روش کاوش: ۰0.9 لح 6 هط 7
* استفاده از روش مكاشفهاي در کاوش منجر به بهبود کا رآيي کاوش و مخصوصاً
منجر به یافتن سریعتر صفحات هدف در اوایل کاوش میشود.
* استفاده از روش تغییر خط مشي منجر به بهبود کا رآيي کاوشگرهاي میشود.
ee
صفحه 56:
نتیجه گيري - ادامه
8 بهبود مکانیسم هاي پرس و جوي کاربر
© با توسعه خودکار پرس و جوء کاربر نيازي به فراهم آوردن اسناد اولیه مرتبط
در جستجو فدارد. ۱
* الگوریتم پيشنهادي براي ساخت خود کار 050 مجموعه لغات مرتبط
مفهومي را بصورتي موثر مي باید.
* استفاده از 00007 براي توسعه برس و جوي کاربر در معماري 000-00
منجر به بهبود کیفیت فتایج موتور جستجو مي شود
@ معماري عپه و00 با بهره گيري از 080 و 006 امکان
اراثه نتایج با کیفیت و دقت بیشتر را به کاربر فراهم مي آورد.
صفحه 57:
پيشنهادات آینده
8 کاوشگرهاي متمرکز يادگيري تقويتي
© يهبود روشهاي کاوش متمرکز وب (با موضوع خاص) بوسیله اسلسله مراقب مفهومي با
موضوع خاص"
© دسته بندي کننده هاي متن تطبيقي (پهیا)
* آزمایش روشها بر روي بستر آزمایش شرکت ها (يك صفحه هدف)
يادگاري ساختار وب با استفاده از يادگيري تقويتي
© مكانيسم هاي برس و جو
© استفاده از دانش مربوط به علائق و زمينه هاي تحقيقاتي و يا كاري كاربر در توسعه برس
وجو
@ تشخیص خودکار دسته مورد نظر در 080۶
6 استفاده از الگوریتم هاي قویتر به جاي الگوریتم ساده ۳۳106 در یافتن کلمات مرتبط
© اطلاعات درون شاخص تهیه شده از صفحات وب (در موتور جستجو) به جا و یا در کنار
شاخص اصليء بصورت "مورد" در يك پایگاه داده درون کاوشگر متمر کز نگهداري شوند
or
صفحه 58:
مهم ترین مراجع مورد استفاده
© Okdeubot ©., Our Der Bery O., ord Orw ®., Porsed pravky! vw wprewk
یج وف موی سس Proverdap oF the Of: Inter catoad Dorid-Dide
3 سین )0006( (OSS.
6 0/۵ ©», Sree .ل سم cad Oeypwore K., Curwatey he اه تست
rier! portly wit oxckice bara, a kPoranton Rerevd dowd, (OO.
6 م0 ,.6 مسط 00 لب لس rekPorcewed borin; و spiter te web PPro, “ka
بسا نله من وج :0 مومس )100,(, 6
لیب
revert Ovotx- اح ا ع 1 ع ©
g Dechy, Brovevrkp of her ‘erenaoned Oo Pororce we Owhtw bowretey (TOOL),
تیه 0 :جوا و۵ .. (0 .® حور لو .۱ :0 مسا .6 ماس ©
Ow 1999. ,66606 ۱ ۳
PLY, Orormt: Prcwrcatrs ord RePewrd oP Onccert Vera chier Por لجن إل مم فا
رت للم منوت 200190 جب برس سس
Debus (KDO'GF), Grute, JOOP, pres ۰
یه 0 ,.@ Beterk-Sporl ®., Lear O. und Liter. ©
,با Levtre Oves to OriPind 0 هایس ی
Ort. IO7O, Gpringer-Orrkny, Berta, .م۶ 9-69, ۰,
صفحه 59:
مقالات ارائه شده
@ H. R. Motahari Nezhad, A. A. Barfourosh, Expanding
Reinforcement Learnin. g Approaches for ‘Efficient Crawling the
Web, The World Multi Conference on Systematics and
Cybernetics and Informatics (SCI 2003}, July 27 - 30, 2003,
Orlando, Florida, USA. To Appear.
@ A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning
Approach to Domain Specific Search Engines, International
Journal of Applied Science and Computations, USA, To Appear.
@ H.R. Motahary Nezhad, A. A. Barfourosh, A New Approach to
Expand User's Query in Domain Specific Search Engines, in
Proceedings of Eight International Computer Society of iran
Conference (CSICC'2003), Mashhad, Iran, 25-27 February,
@ A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasonin
Framework for Domain Specific Search Engine, Proceedings o'
The 2002 International Arab Conference on Information
Technology (ACIT’2002), Vol 1., Qatar, pp. 20-29, December
16-1!
صفحه 60:
مقالات ارائه شده - ادامه
© H. R. Motahary Nezhad, A. A. Barfourosh, Focused Crawlin:
Trends as a New Approach to Web Crawling: Problems an
Limitations, First National Computer Conference (NCC2002),
Mashhad - iran, December 2002.
@ A. A. Barfourosh, H.R. Motahary Nezhad, Design of an
Information Integration Environment based on Active Logice,
Technical Report in Department of Computer Engieeering,
Amirkabir University of Technology, Tehran - Iran, November
2002.
@ A. Barfourosh and H. R. Motahary Nezhad, A New Approach to
Information Retrieval based on Case Base Reasoning and
Concept Hierarchy in Cora, Accepted in Third International
Conference on Data Mining Methods and Databases for
Engineering, Finance and Other Fields (Data Mining 2002),
Bologna, Italy, September 25-27, 2002.
@ H. R. Motahary Nezhad, Toward Next Generation Search Engines,
in proceedings of Sth student computer conference, University
of Science and Technology, May 22-24, 2002, Tehran - Iran.
صفحه 61:
مقالات ارائه شده - ادامه
@ A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D.
Perlis, ALLI: An Information Integration System Based on
Active Logic Framework, in Proceedings of Third International
Conference on Management Information Systems, Greece, 24-
27 April 2002, pp.339-348.
@ A. A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D.
Perlis, Information Retrieval in WWW and Active Logic: Survey
and problem definition, Technical Report in Department of
Computer Science of University of Maryland and Institute of
Advance Computer Science in University of Maryland, USA, CS-
4291, 2002.
صفحه 62:
با تشكر و سياس "۳
از حضور و توجه شما
بازيابي كارا و مؤثر اطالعات وب با استفاده از
دستاوردهاي يادگيري ماشين :طراحي و تكامل
روشهاي يادگيري تقويتي در كاوش متمركز
جلسه دفاع از پايان نامه كارشناسي ارشد
دانشگاه صنعتي اميركبير
دانشكده مهندسي كامپيوتر
دانشجو:
حميدرضا مطهري نژاد
استاد راهنما:
دكتر عبداله زاده بارفروش
Efficient and Effective Information Retrieval through Machine Learning Approaches: Design
and Evolution of Reinforcement Learning on Focused Crawling
فهرست مطالب
مقدمه
دستاوردهاي اين پروژه
كاوش متمركز وب
كاوش متمركز وب با استفاده از يادگيري تقويتي
طراحي و پياده سازي كاوشگر متمركز يادگيري تقويتي
نتايج حاصل از پياده سازي و ارزيابي
توسعه مكانيسم هاي پرس و جو در كاوشگرهاي متمركز
معرفي “ سلسله مراتب مفهومي با دامنه خاص (”)DSCH
ارائه الگوريتمي خودكار – DSCHپياده سازي و ارزيابي آن
ارائه معماري يكپارچه براي موتورهاي جستجوي با دامنه خاص
نتيجه گيري و پيشنهادات آينده
مقاالت ارائه شده حاصل از پروژه
2
معماري كاوشگرهاي وب
Index Manager
Indexer
Stop list
Stemmer
Proper noun list
Indexing Policy
Indexing Component
Query Manager
Thesaurus
…
Crawling Component
target url
Crawler Manager
Results
query
Querying Component
3
Web content
كاوش متمركز وب
كاوش متمركز وب به عنوان راه حلي براي بازيابي اطالعات وب
صفحات مربوط به يك موضوع و يا از نوع خاص را جستجو و كپي كرده ،شاخصبندي و نگهداري مي
كند.
نتايج مورد انتظار از كاوش متمركز
يافتن بيشترين صفحات مربوط با كاوش كمترين ابرپيوند نامربوط
تحقيقات مرتبط
Fish
Web Watcher
Page-Rank
)IBM Focused Crawler (Clever
Cora
Context Focused Crawler
KAON
Apprentice
4
معماري كاوشگرهاي متمركز
حد آستانه
اسناد مربوط
به موضوع
مورد تمركز
صفحات
مرتبط
تشخيص ميزان تشابه
تخمين ميزان ربط
UR
صفحه به موضوع
ابرپيوندهاي
كاوش (دسته بندي
Lهاي استخراج شده به
ا6س6تخرا6ج
كننده)
موضوع
صفحه وب
وب
UR
L
صفحه
وب
مؤلفه تنظيمات اوليه
(صفحات اوليه كاوش)
كاوشگر(هاي) وب
ش6ده6
URL
URLمVقدار Q /
آدرس شروع
صف اولويت
URLها
5
دستاوردهاي اين پروژه
كاوش متمركز وب با استفاده از يادگيري تقويتي
توسعه روشهاي Coraبراي محاسبه مقدار Qيادگيري تقويتي و پيشنهاد روشهاي جديد
استفاده از دسته بندي كننده ماشينهاي بردار پشتيبان براي اولين بار در كاوشگرها و
مقايسه با نتايج قبلي
ارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي
كاوشگر مانند متن اطراف ابرپيوند ،تعداد دسته ها در دسته بندي كننده و مقدار گاما در
محاسبه Q
توسعه پرس و جوي كاربر در كاوشگرهاي متمركز
معرفي ابزار "سلسله مراتب مفهومي با دامنه خاص" و استفاده از آن براي توسعه
خودكار پرس و جوي كاربر در معماري CSََ AKU-
طراحي ،پياده سازي و ارزيابي الگوريتمي جديد براي يادگيري "سلسله مراتب مفهومي
با دامنه خاص" با استفاده از اسناد آموزشي
Vرهاي جستجوي با
پيشنهاد يك معماري يكپارچه (با ارائه چارچوب فرمال ) براي موتو
دامنه خاص كه از سلسله مراتب مفهومي با دامنه خاص و استدالل بر پايه موارد براي
يادگيري از جستجوهاي قبلي استفاده مي كند
6
يادگيري تقويتي
يادگيري تقويتي
ي بهينه از محاوره با يك محيط پويا و باV
به چارچوبي براي يادگيري خط مش
.مكانيسم پاداش و جزا اشاره دارد
S: set of available States , A: set of available Actions,
Agent
T: SAS, Transition Function
R: SAR, Reward Function,
STATE ,
: SA, Learned Policy
REWARD
ACTION
rt: Received reward in t step after
Environment
starting from s,
: discount
factor, V (s) = Value of state s
*: Optimal Policy, which maximizes the values of states, for all state s.
V (s) maxV (s)
V*: Value Function of Optimal Policy
: expected return of taking action a in state s, and thereafter
Q (s, a) maxQ (s, a) Q*
following optimal
policy
Q*(s,a) = R(s,a) + V*(T(s,a))
7
t
V (s) rt
t 0
يادگيري تقويتي براي كاوش متمركز
خواصي از يادگيري تقويتي كه آن را براي كاوش متمركز
مناسب مي سازد:
توانايي مدل كردن پاداشهاي تاخيري (آينده) حاصل از تعقيب ابرپيوندها
امكان يادگيري از سعي و خطا – مناسب براي محيط هاي پويا و با تعداد داده
هاي آموزشي كم
كارآيي به صورت پاداش در طول زمان قابل اندازه گيري است
مزيت كاوشگر يادگيري تقويتي بر كاوشگر متمركز معمولي
امكان در نظر گرفتن پاداش هاي آينده يك ابرپيوند در اولويت كاوش آن
8
نگاشت كاوش متمركز به يادگيري تقويتي
توابع Tو Rمشخص هستند
پاداشهاي آني ()R: Reward Function
سند مرتبط حاصل از كليك كردن ابرپيوند
پاداشهاي آينده ()V: Value function
سند (اسناد) مرتبط حاصل از تعقيب ابرپيوند در چند سطح بعدتر
“عمل” :تعقيب (پيمايش) يك ابرپيوند خاص (A: set of
)actions
تعداد اعمال در اختيار ،پويا و بزرگ
"حالت" شامل ()S: set of states
مجموعه اسناد هدفي است كه بايد کاوش شوند.
مجموعه پيوندهايي كه يافته شدهاند.
9
نگاشت كاوش متمركز به يادگيري تقويتي
(ادامه)
مشكالت
فضاي حاالت بسيار بزرگ است.
تعداد اعمال در اختيار هم بسيار زياد است
فرض هاي كاوشگر يادگيري تقويتي Coraبراي سادگي و
تعميم مساله:
"حالت" مستقل از اينست كه كدام اسناد هدف تابحال ديدهشدهاند.
تبديل تمامي حاالت به يک حالت
ميزان ربط اعمال (ابرپيوندها) به موضوع (هدف) ميتواند با كلمات "در
همسايگي" ابرپيوند متناظر با هر عمل مشخص شود.
ميتوان بين ابرپيوندها تعميم انجام داد و آنها را بوسيله متن اطرافشان با هم مقايسه كرد.
10
طراحي كاوشگر متمركز يادگيري تقويتي
امكان يادگيري برخط
طراحي كاوشگر يادگيري تقويتي در اين پروژه
فاز آماده سازي بستر آزمايش و پيش پردازش
فاز يادگيري
فاز آزمايش
11
مشخصات بستر آزمايش
عدم امكان استفاده از
پايگاه هاي وب ايراني
بستر آزمايش
تعداد صفحات
تعداد
ابرپ8يوندها
تعداد مقاالت
تحقيقي
دانشگاه
بوستون
7365
44347
1425
دانشگاه برون
10405
72600
1554
پسوند صفحات وب کپي
شده
.html, .htm, .shtml
دانشگاه
پيتزبورگ
4104
12811
622
پسوند فايلهاي صفحات
هدف (مق8اله هاي تحقيقي)
.ps, .ps.gz, .ps.Z,
.pdf, .pdf.Z
دانشگاه
کاليفرنيا –
ديويس
1170
2731
440
پايگاه هاي وب بخش هاي علوم
Vگاه
كامپيوتر چهار دانش
Boston، Brown، Pittو
UCDavis
نام دانشگاه
HTML
12
طراحي كاوشگر يادگيري تقويتي
(معماري بخش آماده سازي بستر آزمايش و پيش پردازش )
تعداد مقاالت در
سطوح هر URL
پيش 6پردازش
نتيجه
كاوش
ليست
مقاالت
URL
ليست
URLهاي
پايگاه
م6قا6له
/URL
پردازش سند
ص6فحه HTپايگاه داده
" MLدرهمسازي"
/ URL صفحه وب
6در/
URLپ6
URL
URLكاوشگر "اول-
وب
سطح"
صفحه وب
مولفه تنظيمات
اوليه
URLش6رو6ع
: L ت66ع6داد س6طوح
ك6او6ش
13
طراحي كاوشگر يادگيري تقويتي
(معماري بخش يادگيري)
مقدار Q -هر
URL
محاسبه مقدارQ -
هر URL
روش
محاسبه
مولفه تنظيمات
اوليه
تعداد مقاالت در
سطوح هر URL
UR
L
كاوشگر "اول-
پايگاه داده
نوع متن همسايگي
سطح"
"درهمسازي" صفحه وب
تعداد دسته ها
متن ابرپيوند و همسايگي آن /مقدارQ -
زوجهاي "مجموعه كلمات/مقدار
"-Qبراي هر آدرس"
يادگيرنده (دسته
بندي كننده)
دسته بندي بر
اساس مقدارQ-
دسته هاي
آموزشي
14
دسته بندي كننده هاي متن
دسته بندي كننده بيز ساده (مورد استفاده در )Cora
روش آماري براي دسته بندي متن (احتمال تعلق يك متن به هر دسته)
از روش بيز استفاده مي كند و كلمه “ساده” به اين معني است كه احتمال
رخداد كلمات در هر دسته و سند را مستقل از هم در نظر مي گيرد.
روش شناخته شده و پر كاربرد براي دسته بندي متن
دسته بندي كننده ماشينهاي بردار پشتيبان ()SVMs
بر اصل "حداقل سازي خطاي ساختاري" در نظريه يادگيري محاسباتي تكيه
دارد
يافتن قضيه hكه حداقل خطاي مطلق را تضمين ميكند ،معادل يافتن چند
سطحي است كه داراي حداكثر حاشيه با بردارهاي پشتيبان در داده هاي
آموزشي است
15
دسته بندي كننده هاي متن
(دسته بندي كننده )SVMs
داليل تناسب ماشينهاي بردار پشتيبان براي دسته بندي متن
ابعاد زياد فضاي ورودي – راه حل SVMsبه تعداد ويژگيها (صفات) بستگي ندارد.
تعداد كم ويژگيهاي غير مرتبط
تُنك بودن بردارهاي اسناد
ماشينهاي بردار پشتيبان Transductive
روش TSVMSيك نوع خاص از SVMsاست كه هدفش يادگيري از تعداد معدودي
داده آموزشي است
در دسته بندي متن نسبت به الگوريتم SVMsبه كارآيي بهتري دست يافته است
دستاورد استنتاج Transductiveبه جاي استقراء ( )Inductionاستفاده ميكند
در استقرا ،يادگيرنده سعي ميكند تا به طريقه استقراء يك تابع تصميم را
نتيجه بگيرد كه داراي نرخ خطاي پاييني در تمامي توزيعهاي داده هاي
آموزشي و آزمايشي براي يك يادگيري خاص باشد .در بسياري از موقعيتها مي
خواهيم يك مجموعه از مثالها (مجموعه آموزشي) را با كمترين خطاي ممكن
دسته بندي كنيم .اين مساله ،هدف استنتاج Transductiveاست.
16
در اين پروژهQ روشهاي محاسبه
Cora روشهاي توسعه يافته از
Immediate (Two classes): – std. FC
If the link is a paper its Q value is 1 else 0.
Distance:
Calculates Q values as gamma ^ (distance to the
nearest reward)
Future (Three classes):
Calculate Q values for three classes - immediate,
future, none. Score = 1 for immediate, gamma for
.future, zero for none
Future (Four classes):
Calculates Q values for four classes - immediate, onestep, two-step, none.Score = 1 for immediate, gamma
for one-step, gamma^2 for two-steps, zero for none
17
) دسته2( روش آني
روش فاصله
) دسته3( روش آينده
) دسته4( آينده
) دسته5( آينده
)آينده (موازي
تعداد مقاالت تحقيقي
روشهاي جديد
روش برش مقدار
تغيير خط مشي
روش مكاشفه اي
طراحي كاوشگر يادگيري تقويتي
(فازآزمايش )
دسته بندي كننده
(بيز ساده يا ماشينهاي
بردار پشتيبان)
n
) Q(text) Pc (text) Q _ Avg(Ci
i 1 i
احتماالت
تعلق
/ URLم6تنه6مساي6گي
نتيجه
كاوش
پايگاه داده
"درهم
سازي"
URL
صفحه وب
محاسبه
مقدارQ-
URL/
مقدارQ-
صف اولويت
URLب66ا ب66يشتري6نم6قدار-
ليست
مقاالت
كاوشگر يادگيري
تقويتي
Q
مولفه تنظيمات
آدرس
اوليه
شروع
18
پياده سازي كاوشگر يادگيري تقويتي
شرايط سخت افزاري
پنتيوم IVبا پردازنده MHz6/1و با مقدار Ramبرابر 512مگابايت و
ديسك سخت 40گيگابايت
سيستم عامل و زبان برنامه نويسي
سيستم عامل لينوكس و زبانهاي Perlو Cتحت اين سيستم عامل
مولفه هاي آماده مورد استفاده
Webget
)…Rainbow – Text Processing Package (Classification,
Naïve Bayes Classifier
Support Vector Machines Classifier
كدهاي غير تجاري Cora
19
پياده سازي كاوشگر يادگيري تقويتي
(تعداد آزمايشات انجام شده)
تعداد روشهاي پايه
عامل تاثيرگذار
ضريب تاثير
8
مقدارهاي مختلف گاما ( 1/0و 3/0و )5/0
3
انواع متن در همسايگي (نزديك ،مرتبط و تمام صفحه)
3
تعداد دسته هاي آموزشي (3و 4و )5
انواع دسته بندي (بيز ساده و ماشينهاي بردار پشتيبان)
Vگاه ها ( پايگاههاي وب بوستون ،برون ،پيتربورگ و
تعداد دانش
كاليفرنيا-ديويس)
3
2
4
تعداد آزمايشها با تمامي تركيب ها 1200 :آزمايش
تعداد آزمايش انجام شده در اين پروژه
213 * 4 = 852
روشهاي جديد 30 :آزمايش
20
پياده سازي كاوشگر يادگيري تقويتي
)(اجراي خودكار كاوشگر
مدير اجرا
Get Test Name
Construct training data...
Create index model...;
Make average of Q-Values of each class ...;
Train naïve bayes classifier (Rainbow) and install it in port 1823...
Run the test using naïve bayes classifier
Train SVMs classifier (rainbow with ) in different port (1824)
Run the test using SVMs classifier
21
پياده سازي كاوشگر يادگيري تقويتي
(برنامه تحليل نتايج و توليد نمودارها)
22
نتايج پياده سازي
) در بستر آزمايشSVMs وNB (مقايسه دسته بندي كننده هاي
Di ffe re n t Cl ass Nu mb e rs (Av g e rag e d o v e r 4u n i v e rsi t i e s)
100
Pecen t
90
Two
80
Th re e
70
Fo u r
Five
60
50
N NB
23
R NB
FNB
N SVMs
Me t h o d s
R SVMs
FSVMs
يادگيريV
پارامترهاي ارزيابي كارآيي كاوشگرهاي
تقويتي
درصد مقاالت يافته شده به درصد صفحات كاوش شده:معيار اول
ميزان پاداش دريافتي در طول اجرا توسط كاوشگر:معيار دوم
Integral_Sum = 0 // Calculating integral (space above curve)
For index = 0 to Paper_number do
If (index/Paper_Number <= Percent)
Integral_Sum = Integral_Sum + Link_Number[index]
// Calculating integral of under curve
Integral_Sum = Univ_Link_Number * Paper_Number –
Integral_Sum
// Calcultaing the percent of overall achieved reward
Integral_Sum = Integral_Sum / (Univ_Link_Number *
Paper_Number)
تعداد مقاالت تحقيقي كاوش شده تا درصد خاصي از كاوش:معيار سوم
24
مقايسه تاثير دسته بندي كننده در كارآيي
كاوشگر يادگيري تقويتي – معيار اول
25
مقايسه تاثير مقدار گاما در كارآيي كاوشگر
يادگيري تقويتي – معيار دوم
Gamma 30%
svm_0.1
79.659
7
svm_0.3
78.738
5
svm_0.5
77.959
nb_0.1
79.793
3
nb_0.3
79.1212
nb_0.5
74.780
2
0.1
79.727
5
0.326
78.929
8
Gamma 50%
svm_0.1
78.509
3
svm_0.3
77.805
9
svm_0.5
76.689
nb_0.1
79.814
nb_0.3
78.987
8
nb_0.5
76.452
5
0.1
79.1714
0.3
78.396
9
Gamma 100%
svm_0.1
67.914
5
svm_0.3
66.906
8
Gamma Last 50%
svm_0.1
74.194
8
svm_0.3
72.132
3
svm_0.5
66.461
9
svm_0.5
71.730
4
nb_0.1
71.906
6
nb_0.1
77.288
nb_0.3
76.046
9
nb_0.5
75.158
6
0.1
75.764
5
0.3
74.089
6
nb_0.3
71.102
nb_0.5
69.746
5
0.1
69.940
4
0.3
69.004
4
مقايسه تاثير مقدار گاما در كارآيي كاوشگر
ادامه- تقويتيV
يادگيري
Gamma 10%
Svm_0.000
1
68.26003
88
Svm_0.001
67.50965
13
Svm_0.01
67.494211
9
Svm_0.1
68.721419
58
nb_0.0001
63.94740
63
nb_0.001
66.83404
13
nb_0.01
66.122017
5
nb_0.1
27
69.03555
Gamma 50%
svm_0.0001
75.036513
75
svm_0.001
70.978741
25
svm_0.01
74.203239
38
svm_0.1
76.973914
58
nb_0.0001
34.137497
5
nb_0.001
54.587031
25
nb_0.01
45.112820
63
nb_0.1
56.119568
33
Gamma 100%
svm_0.0001
68.260
039
svm_0.001
67.509
651
svm_0.01
67.494
212
svm_0.1
68.7214
2
nb_0.0001
63.947
406
nb_0.001
66.834
041
nb_0.01
66.1220
18
nb_0.1
69.035
55
مقايسه تاثير تعداد دسته ها در كارآيي
كاوشگر يادگيري تقويتي
Class 30%
svm_three
80.2867
8
svm_four
75.8086
4
svm_five
77.8792
8
Class 100%
svm_three
68.50322
15
svm_four
65.24404
13
svm_five
66.26220
82
nb_three
81.63572 nb_three
75.341351
7
nb_four
74.0962
7
68.29322
6
nb_five
three
28
nb_four
78.99991 nb_five
69.811134
80.96125 three
71.92228
66
Class Last 50%
svm_three
74.600
77
svm_four
70.823
78
svm_five
71.787
7
nb_three
80.503
76
nb_four
73.700
94
nb_five
74.896
64
three
77.552
26
مقايسه تاثير متن همسايگي در كارآيي
كاوشگر يادگيري تقويتي
Text 30%
svm_near
77.90976
147
svm_rel
79.25077
888
svm_full
76.319931
82
nb_near
82.82294
186
nb_rel
74.321019
3
Text 100%
Text Last 50%
svm_near
65.8203
727
svm_rel
68.87017
99
svm_rel
73.906
25
svm_full
65.13000
97
svm_full
70.909
86
nb_near
75.12223
35
nb_near
80.309
65
nb_rel
68.71179
5
nb_rel
73.296
62
nb_full
73.001546
52
nb_full
65.2234
597
nb_full
71.082
22
near
29
80.366351
67
near
70.47130
31
Near
svm_near
72.315
74
76.312
7
يادگيري تقويتيV
مقايسه كارآيي كاوشگرهاي
با جميع پارامترها
Method 10%
Method 30%
nb_n_4_cut_g0.3
94.199867
5
nb_n_4_cut_g0.3
89.770865
svm_f_4_four0.3
93.72536
75
svm_r_5_cut_g0.5
89.6505
svm_f_4_four0.5
93.69440
5
svm_r_4_cut_g0.5
88.383172
5
svm_f_5_dist0.3
93.68524
25
svm_n_4_cut_g0.3
88.328312
5
svm_f_4_four0.1
93.45632
5
svm_r_5_five0.5
88.12912
nb_n_5_dist0.5
93.25344
25
svm_n_5_cut_g0.5
87.796012
5
nb_n_5_five0.5
93.20841
svm_r_3_parl0.3
87.776272
5
svm_r_5_cut_g0.5
93.09662
svm_r_5_parl0.5
87.74648
92.99507
svm_r_5_parl0.3
87.74648
30
nb_f_5_dist0.1
يادگيري تقويتيV
مقايسه كارآيي كاوشگرهاي
ادامه-با جميع پارامترها
Method 50%
svm_n_4_cut_g0.3
88.481055
Method 100%
nb_n_4_cut_g0.3
81.8159675
nb_n_4_cut_g0.3
88.36996
nb_r_3_cut_g0.5
78.335362
5
svm_n_5_cut_g0.5
87.56996
75
nb_r_3_parl0.1
78.04647
svm_r_5_cut_g0.5
87.37099
75
nb_r_4_dist0.5
77.968872
5
svm_r_5_five0.5
87.25904
5
nb_r_3_parl0.3
77.94723
svm_r_3_parl0.3
87.02282
nb_r_4_dist0.3
77.87946
nb_n_3_cut_g0.5
86.97768
5
nb_n_3_cut_g0.5
77.364047
5
nb_r_4_four0.5
86.68336
25
nb_r_3_dist0.3
77.352802
5
86.62787
5
nb_r_3_cut_g0.3
77.25757
31
svm_r_4_cut_g0.5
مكاشفه اي براي بهبود كارآيي كاوشگرV
روش
يادگيري تقويتي
Word
Weight
Papers
0.1935
9
People
0.0768
9
Pub
0.0755
9
Techreports
0.0546
3
Research
0.0536
2
Pubs
0.0302
3
Publications
0.02611
refereedconference
0.0128
7
Reports
0.0103
6
32
0.0098
Word
Weight
Postscript
0.0096
3
Tech
0.0087
8
Graphics
0.0086
6
accepted
0.0064
7
pdf
0.0062
7
articles
0.0059
2
users
0.0057
4
files
0.0051
5
conf
0.0050
1
Word
Weight
selectedjournal
0.0039
6
paper
0.0039
6
ai
0.0035
6
Journal
0.0030
4
Journals
0.0023
8
archive
0.0021
7
ps
0.0023
1
projects
0.0017
8
faculty
0.0012
5
Vمكاشفه اي براي بهبود كارآيي كاوشگر
روش
Vتقويتي -ادامه
يادگيري
33
بهبود كارآيي كاوشگر يادگيري تقويتي با
تغيير خط مشي
34
Vيادگيري تقويتي ،متمركز
مقايسه كاوشگرهاي
و اول-سطح
35
توسعه مكانيسم هاي پرس و جوي وب در
كاوشگرهاي متمركز
مشاهده واقعيت ها و كمبودهاي زير
تطابق دقيق كلمات كليدي در يافتن جواب پرس و جوي كاربران
عدم استفاده از دانش حوزه مورد جستجوي كاربر جواب دادن به پرس و جوي كاربران
عدم استفاده از دانش عاليق و پيش زمينه هاي كاري و علمي كاربر
راه حل پيشنهادي
Vي كاربران با استفاده از يك سلسله مراتب مفهومي با دامنه خاص
توسعه پرس و جو
مزاياي راه حل پيشنهادي
فرآيند توسعه پرس و جو يك فرآيند خودكار است
Vع به عنوان ورودي سيستم ندارد.
كاربر نيازي به فراهم آوردن اسناد مرتبط به موضو
سلسله مراتب مفهومي با دامنه خاص از طريق يك فرآيند آماري بر روي متن ياد گرفته
مي شود
36
سلسله مراتب مفهومي با دامنه خاص
سلسله مراتب مفهومي ( )CHچيست؟
Vب
VيمVرت
Vزي
Vيبج
Vدر يVكتVرت
VتكVه
Vس
Vبطا
Vومٌا مVرت
VهايمVفه
Vياز گVره
Vا
CHمVجموعه
Vند.
Vا
شVده
سلسله مراتب مفهومي با دامنه خاص
Vدامنه خاص ا ست
نوعي از سلسله مراتب مفهومي كه شامل لغات فني يك
دستاورد اين پروژه در اين زمينه
طراحي و پياده سازي الگوريتم مبتني بر يادگيري براي ساخت خودكار
DSCH
37
لVثاV م- DSCH
Computer
Science
Operatin
g
Systems
Hardware
&
Architectu
re
Artificial
Intelligen
ce
Human-Computer Information
Retrieval
Interface
Term1
Term2
….
Natural
Language
Processing
Retrieval
Machin
e
Learni
ng
Planning
Reinforcement Neural
Network
Learning
Term1
Term2
….
38
Term1
Term2
….
...
Robotics
Term1
Term2
….
...
Term1
Term2
….
Filtering
Term1
Term2
….
...
...
DSCH مراحل الگوريتم ساخت خودكار
Crawling and PreProcessing
Second Process
Finding highly cooccurrence weighted
Words
Cawling the selected
Hierarchy and PreProcessing the
documents
First Process
Third Process
Finding highly
weighted words
(TFIDF)
Finding Terms instead
of separated Words
TFIDF: Term Frequency Inverse Document Frequency
39
مرحله كاوش و پيش پردازش
كاوش سلسله مراتب انتخابي ( )Coraو كپي كردن اسناد
آموزشي
حذف بخشهاي ثابت (سرآيند و زير نويس) و نام مولفان
براي مقاالت (“)Author”, “References”, …words
بستر آزمايش
100سند آموزشي از هر گره Coraكپي و به عنوان مجموعه آموزشي
استفاده شد
Vمراجع و
هر سند اطالعاتي راجع به يك مقاله در موضوع گره (نام ،چكيده ،نام
مقاالتي كه به اين مقاله اشاره كرده اند)
40
TFIDF (يافتن كلمات با بيشترين وزنV
اولين پردازش
)در مجموعه اسناد آموزشي گره
data“ براي دستهTFIDF كلمه با باالترين وزنN=25 تعداد
”Mining
Word
Weight
Word
Weight
Word
Weight
Data
0.0483205
Proceedings
0.010879
2
classification
0.0062527
mining
0.0460734
Algorithm
0.010284
1
Trees
0.0062364
Rules
0.0335740
Conference
0.007768
0
Sigmod
0.0062189
databases
0.0300237
Machine
0.007652
1
Acm
0.0060270
knowledge
0.0290816
research
0.007552
8
Relational
0.0053060
association
0.0260618
ieee
0.007429
3
intelligence
0.0049911
discovery
0.0247404
decision
0.007410
5
Induction
0.0047303
41
Large
0.0184948
information
0.007255
4
دومين پردازش (يافتن زوج كلمات با بيشترين وزن
)رخداد همزمان
”data mining“ زوج كلمه با بيشترين وزن رخداد همزمان در گرهN =25 تعداد
Word1
Word2
Co_o Weight
Word1
Word2
Co_o Weight
Aggregation
data
0.0629474
Geographic
Data
0.0693333
Aggregation
Mining
0.0589019
geographic
Mining
0.0609187
Association
Mining
0.0571912
integration
Data
0.0642788
Baskets
Mining
0.0591086
Query
Data
0.0587437
Clustering
data
0.0590085
Relational
Data
0.0589771
Clustering
mining
0.0586942
Spatial
Data
0.0683995
Correlations
mining
0.0609724
Spatial
Mining
0.0621446
Cubes
data
0.0736354
technology
Data
0.0620216
Cubes
mining
0.0668675
Tools
Data
0.0602633
Dbminer
data
0.0901771
Users
Mining
0.0583686
Dbminer
mining
0.0783960
warehouse
Data
0.0950729
Dimensional
data
0.0743458
warehouses
Mining
0.0794421
Dimensional
mining
0.0716238
42
)سومين فرآيند (يافتن عبارات به جاي كلمات
”data mining“ عبارت دو كلمه اي با باالترين احتمال رخداد در گرهN =25 تعداد
Term
Weight
Term
Weight
Term
Weight
Association
rule
0.0023453
062
spatial
data
0.00037910
43
mining
application
0.00020561
59
Large database
0.0018312
665
Interesti
ng rule
0.00034697
68
Level
association
0.00020561
59
Data mining
0.0014907
152
Databas
e system
0.00034697
68
attribute
oriented
0.00020561
59
0.0009895
264
machine
learning
0.00032127
48
0.0006618
261
multiple
level
0.00028272
18
0.0006232
731
large set
0.00026987
08
0.0005461
672
spatial
database
0.00025701
99
relational
database
Decision tree
knowledge
discovery
relational data
43
0.0005140
0.00022489
Base mining
learning
algorithm
inductive learn
discovered
association
0.00019919
04
0.00019276
49
0.00019276
49
0.00019276
49
ادامه-)(يافتن عبارات به جاي كلمات
سومين فرآيند
”data mining“ عبارت سه كلمه اي با باالترين احتمال رخداد در گرهN =25 تعداد
Term
Weight
Term
Weight
mining association rule
0.00000129
81
attribute oriented
induction
0.00000034
07
multiple level
association
0.00000051
92
data mining system
0.00000030
83
Level association rule
0.00000051
92
generalized association
rule
0.00000027
58
discovered association
rule
0.00000048
68
object oriented
database
0.00000024
34
spatial data mining
0.00000037
32
data mining technique
0.00000019
47
44
AKU-CSمعماري
User
Interfa
ce
Query Expansion
Component
User's Query
(Itemized)
Results
Expanded Query
(Itemized)
Re-Ranking
Component
Query
Manage
r
AKU-CS Middleware
45
Original
User's
Query
Results
Domain Specific
Concept
Hierarchy
Query
Expander
Focused
Crawler
(Cora)
Index
Database
آزمايشات پرس و جو در معماري AKU-
CS
ارائه پرس و جوي “ ”Reinforcement Learning Introductionبدون
توسعه پرس و جو
توسعه پرس و جو با استفاده از DSCH
Vسعه
300نتيجه اول برگردانده شده انتخاب و بر اساس ميزان شباهت با جستجوي تو
يافته دوباره رتبه بندي گرديد
سند فوق در رتبه بندي مجدد با پرس و جوهاي مشابه با فوق در 5نتيجه اول بود
46
استدالل بر پايه موارد ()CBR
Vيست
CBRچ ؟
Vته كVه مVورد
Vه هايگVذش
VمVجدد از تVجرب
Vه
Vتفاد
Vس
Vه ا
VتدالVلبVر پVاي
Vس
CBRنVوعياز ا
VبVا مVوارد
Vه
VديدمVشاب
Vلج
VلمVسائ
Vيح
VمVيشVوند بVرا
Vيده
نVام
عناصر مورد در CBR
)Problem, Solution and Outcome (P, S, O
اجزا يك سيستم CBR
معيارهاي تشابه
حافظه (پايگاه داده) موارد
دانش تطبيق موارد قبلي بر مورد جديد
47
V
Vنه
Vم
VستجويبVا دا
Vهايج
VيمVوتور
CBRبVرا
)DSSEV
Vاص(
خ
اهداف استقاده از CBRدر DSSE
Vهاي مشابه
اجتناب از جستجوهاي مجدد براي پرس و جو
يادگيري از جستجوهاي گذشته براي افزايش دقت نتايج موتور جستجو به جستجوهاي
مشابه با جستجوهاي قبلي
چرا در DSSEقابل استفاده از است؟
دو مطالعه مجزا بر روي موتورهاي جستجويَ Altavistaو Exciteبخش قابل توجهي از
پرس و جوها بر روي موضوعات مشخص و مشابهي رخ مي دهند.
Vها مي توانند بر روي هر موضوعي
در موتورهاي جستجوي همه منظوره پرس و جو
ارسال شوند.
مطالعات پرس و جوهاي از لحاظ مفهومي مرتبط را در نظر نگرفته اند.
بر اساس يك تحليل كيفي مي توان انتظار داشت تعداد پرس و جوهاي مشابه در
Vتورهاي جستجوي با دامنه خاص قابل توجه باشد.
مو
48
يكپارچه براي موتورهاي جستجوي باV
معماري
)AKUSearchEngine( دامنه خاص
User
Query
1
User
Interface
Query Expansion
Component
Natural
Language
Parser
Query (Question)
+ Category
User Response
2
5
Modified
Query
Query
Expander
Results
Keywords &
Concepts &
Category.
Case Databases
Reasoning Unit
Case Based Reasoning Component
49
Domain Specific Concept
Hierarchy
3
4
Focused
Crawler
Index DB
WWW
V
Vنه
Vم
VستجويبVا دا
Vهايج
VيمVوتور
CBRبVرا
)DSSEV
Vاص(
خ
پايگاه داده موارد شامل
پرس و جوي كاربر
دسته متناظر پرس و جو در DSCH
Vجود
Vتو
Vج در صVور
URLهاينVتاي
امتياز صفحه (دريافت شده از موتور جستجوي اصلي)
معيار تشابه موارد
Sim(New_Case, Old_Case) = w1 Query_Similarity +
w2 Class_Similarity
w1+ w2 =1
50
V
نهV
مV
ا داVستجويبV
هايجV
وتورVيمV
راV بCBR
V
هV
مV
ادا-)DSSE(اصV
خ
User Query Similarity
Simple edit distance measure based on Levenshtein distance algorithm
TFIDF (Term frequency * Inverse Document Frequency)
Class similarity
Sim(K3, K4) =
Struc_Sim(K3, K4) *
Bag_of_Word_Sim(K3, K4)
>K3, K4<
K
K2
K4
1
LK
L
L = Level_diff (<K3,
2 K4>, K3) + Level_diff (<K3, K4>, K4)
Struc_ Sim
51
K3
K1
V
نهV
مV
ا داVستجويبV
هايجV
وتورVيمV
راV بCBR
V
هV
مV
ادا-)DSSE(اصV
خ
1
,
K1=K2
Bag_of_Word_Sim(K1,
Term_Sim(K
,
1,K2)
K2) =
Otherwise
num(CW(K1,K 2)) n
Term_ Sim(K1, K2) w1
wK1(CWi (K1,K 2)) wK 2(CWi (K1,K 2))
num(W(K1,K 2)) i1
num(CT(K1,K 2)) m
w2
wK1(CTi (K1,K 2)) wK 2(CTi (K1,K 2))
num(T(K1,K 2)) i1
w1 + w2 = 1 (manually defined)
CW = Common Words
than one word)
52
W = Words
CT = Common Terms (more
V
Vنه
Vم
VستجويبVا دا
Vهايج
VيمVوتور
CBRبVرا
V
Vه
Vم
Vاص( -)DSSEادا
خ
تطبيق موارد
رتبه بندي مجدد URLهاي جواب در مورد مشابه به مورد جديد
ادغام نتايج موارد مشابه و رتبه بندي مجدد اگر چندين مورد داراي تشابه
بااليي هستند
53
نتيجه گيري
كاوش متمركز وب با استفاده از يادگيري تقويتي
توسعه روشهاي Coraبراي محاسبه مقدار Qيادگيري تقويتي و پيشنهاد روشهاي جديد
استفاده از دسته بندي كننده ماشينهاي بردار پشتيبان براي اولين بار در كاوشگرها و
مقايسه با نتايج قبلي
ارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي
كاوشگر مانند متن اطراف ابرپيوند ،تعداد دسته ها در دسته بندي كننده و مقدار گاما در
محاسبه Q
توسعه پرس و جوي كاربر در كاوشگرهاي متمركز
معرفي ابزار "سلسله مراتب مفهومي با دامنه خاص" و استفاده از آن براي توسعه
خودكار پرس و جوي كاربر در معماري CSََ AKU-
طراحي ،پياده سازي و ارزيابي الگوريتمي جديد براي ساختن خودكار "سلسله مراتب
مفهومي با دامنه خاص" با استفاده از اسناد آموزشي
Vرهاي جستجوي با
پيشنهاد يك معماري يكپارچه (با ارائه چارچوب فرمال ) براي موتو
دامنه خاص كه از "سلسله مراتب مفهومي با دامنه خاص و استدالل بر پايه موارد براي
يادگيري از جستجوهاي قبلي استفاده مي كند
54
نتيجه گيري -ادامه
بهبود كارآيي كاوشگرهاي متمركز يادگيري تقويتي
استفاده از دسته بندي كننده SVMsباعث يافتن بسيار سريعتر صفحات هدف
در نيمه نخست كاوش مي شود كه در كاوش متمركز بسيار مهم است.
1/0
مقدار گاما:
تعداد دسته ها 3 :دسته
متن درهمسايگي:
كاوشگرهاي با دسته بندي كننده :SVMsمتن مرتبط
كاوشگرهاي با دسته بندي كننده :NBمتن نزديك
بهترين روش كاوشnb_n_4_cut_g0.3 :
استفاده از روش مكاشفهاي در كاوش منجر به بهبود كارآيي كاوش و مخصوص ًا
منجر به يافتن سريعتر صفحات هدف در اوايل كاوش ميشود.
استفاده از روش تغيير خط مشي منجر به بهبود كارآيي كاوشگرهاي ميشود.
55
نتيجه گيري -ادامه
بهبود مكانيسم هاي پرس و جوي كاربر
با توسعه خودكار پرس و جو ،كاربر نيازي به فراهم آوردن اسناد اوليه مرتبط
در جستجو ندارد.
الگوريتم پيشنهادي براي ساخت خودكار DSCHمجموعه لغات مرتبط
مفهومي را بصورتي موثر مي بايد.
استفاده از DSCHبراي توسعه پرس و جوي كاربر در معماري AKU-CS
منجر به بهبود كيفيت نتايج موتور جستجو مي شود
معماري AKUSearchEngineبا بهره گيري از DSCHو CBRامكان
ارائه نتايج با كيفيت و دقت بيشتر را به كاربر فراهم مي آورد.
56
پيشنهادات آينده
كاوشگرهاي متمركز يادگيري تقويتي
بهبود روشهاي كاوش متمركز وب (با موضوع خاص) بوسيله "سلسله مراتب مفهومي با
موضوع خاص"
Vيا)
دسته بندي كننده هاي متن تطبيقي (پو
آزمايش روشها بر روي بستر آزمايش شركت ها (يك صفحه هدف)
يادگاري ساختار وب با استفاده از يادگيري تقويتي
مكانيسم هاي پرس و جو
استفاده از دانش مربوط به عالئق و زمينه هاي تحقيقاتي و يا كاري كاربر در توسعه پرس
و جو
تشخيص خودكار دسته مورد نظر در DSCH
استفاده از الگوريتم هاي قويتر به جاي الگوريتم ساده TFIDFدر يافتن كلمات مرتبط
اطالعات درون شاخص تهيه شده از صفحات وب (در موتور جستجو) به جا و يا در كنار
شاخص اصلي ،بصورت "مورد" در يك پايگاه داده درون كاوشگر متمركز نگهداري شوند
57
مهم ترين مراجع مورد استفاده
Chakrabarti S., Van Der Berg M., and Dom B., Focused crawling: a new approach to
topic-specific Web resource discovery, In Proceedings of the 8th International World-Wide
Web Conference (WWW8), 1999.
McCallum A. K., Nigam K., Rennie J. and Seymore K., Automating the construction of
internet portals with machine learning, In Information Retrieval Journal, 1999.
Rennie J. and McCallum A., Using reinforcement learning to spider the web efficiently , In
Proceedings International Conference on Machine Learning (ICML), 1999.
Joachims T., Transductive Inference for Text Classification using Support Vector
Machines, Proceedings of the International Conference on Machine Learning (ICML),
1999.
Kaelbling L. P., Littman M. L., and Moore A. W., Reinforcement learning: A survey,
Journal of Artificial Inteligence Research, pp. 237-285, May 1996.
Sutton R. S., Barto A. G., Reinformcement Learning: An Introduction, MIT Press,
Cambridge, MA, 1998.
Han J. and Fu Y., Dynamic Generation and Refinement of Concept Hierarchies for
Knowledge Discovery in Databases, AAAI'94 Workshop on Knowledge Discovery in
Databases (KDD'94), Seattle, 1994, pages 157-168.
Bartsch-Spörl B., Lenz M. and Hübner. A., Case-Based Reasoning – Survey and
Future Directions, Knowledge-Based Systems, Lecture Notes in Artificial Intelligence,
Vol. 1570, Springer-Verlag, Berlin, pp. 67-89, 1999,
58
مقاالت ارائه شده
H. R. Motahari Nezhad, A. A. Barfourosh, Expanding
Reinforcement Learning Approaches for Efficient Crawling the
Web, The World Multi Conference on Systematics and
Cybernetics and Informatics (SCI’2003), July 27 - 30, 2003,
Orlando, Florida, USA. To Appear.
A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning
Approach to Domain Specific Search Engines, International
Journal of Applied Science and Computations, USA, To Appear.
H.R. Motahary Nezhad, A. A. Barfourosh, A New Approach to
Expand User's Query in Domain Specific Search Engines, in
Proceedings of Eight International Computer Society of Iran
Conference (CSICC'2003), Mashhad, Iran, 25-27 February,
2003.
A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning
Framework for Domain Specific Search Engine, Proceedings of
The 2002 International Arab Conference on Information
Technology (ACIT’2002), Vol 1., Qatar, pp. 20-29, December
16-19, 2002.
59
ادامه- مقاالت ارائه شده
H. R. Motahary Nezhad, A. A. Barfourosh, Focused Crawling
Trends as a New Approach to Web Crawling: Problems and
Limitations, First National Computer Conference (NCC2002),
Mashhad – Iran, December 2002.
A. A. Barfourosh, H.R. Motahary Nezhad, Design of an
Information Integration Environment based on Active Logice,
Technical Report in Department of Computer Engieeering,
Amirkabir University of Technology, Tehran – Iran, November
2002.
A. Barfourosh and H. R. Motahary Nezhad, A New Approach to
Information Retrieval based on Case Base Reasoning and
Concept Hierarchy in Cora, Accepted in Third International
Conference on Data Mining Methods and Databases for
Engineering, Finance and Other Fields (Data Mining 2002),
Bologna, Italy, September 25-27, 2002.
H. R. Motahary Nezhad, Toward Next Generation Search Engines,
in proceedings of 5th student computer conference, University
of Science and Technology, May 22-24, 2002, Tehran - Iran.
60
ادامه- مقاالت ارائه شده
A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D.
Perlis, ALLI: An Information Integration System Based on
Active Logic Framework, in Proceedings of Third International
Conference on Management Information Systems , Greece, 2427 April 2002, pp.339-348.
http://www.cs.umd.edu/~anderson/papers/MIS2002.pdf
A. A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D.
Perlis, Information Retrieval in WWW and Active Logic: Survey
and problem definition, Technical Report in Department of
Computer Science of University of Maryland and Institute of
Advance Computer Science in University of Maryland, USA, CS4291, 2002.
http://www.cs.umd.edu/Library/TRs/CS-TR-4291/CS-TR-4291.pdf
61
با تشكر و سپاس
از حضور و توجه شما
62