بازیابی کارا و مؤثر اطلاعات وب با استفاده از دستاوردهای یادگیری ماشین: طراحی و تکامل روشهای یادگیری تقویتی در کاوش متمرکز
در نمایش آنلاین پاورپوینت، ممکن است بعضی علائم، اعداد و حتی فونتها به خوبی نمایش داده نشود. این مشکل در فایل اصلی پاورپوینت وجود ندارد.
- جزئیات
- امتیاز و نظرات
- متن پاورپوینت
امتیاز
بازیابی کارا و مؤثر اطلاعات وب با استفاده از دستاوردهای یادگیری ماشین: طراحی و تکامل روشهای یادگیری تقویتی در کاوش متمرکز
اسلاید 1: بازيابي كارا و مؤثر اطلاعات وب با استفاده از دستاوردهاي يادگيري ماشين: طراحي و تكامل روشهاي يادگيري تقويتي در كاوش متمركز جلسه دفاع از پايان نامه كارشناسي ارشد دانشجو:حميدرضا مطهري نژاداستاد راهنما:دكتر عبداله زاده بارفروشدانشگاه صنعتي اميركبيردانشكده مهندسي كامپيوترEfficient and Effective Information Retrieval through Machine Learning Approaches: Design and Evolution of Reinforcement Learning on Focused Crawling
اسلاید 2: 2فهرست مطالبمقدمهدستاوردهاي اين پروژهكاوش متمركز وبكاوش متمركز وب با استفاده از يادگيري تقويتيطراحي و پياده سازي كاوشگر متمركز يادگيري تقويتينتايج حاصل از پياده سازي و ارزيابيتوسعه مكانيسم هاي پرس و جو در كاوشگرهاي متمركزمعرفي “سلسله مراتب مفهومي با دامنه خاص (DSCH)”ارائه الگوريتمي خودكار DSCH – پياده سازي و ارزيابي آنارائه معماري يكپارچه براي موتورهاي جستجوي با دامنه خاصنتيجه گيري و پيشنهادات آيندهمقالات ارائه شده حاصل از پروژه
اسلاید 3: 3معماري كاوشگرهاي وبWeb contenttarget urlStop listStemmerProper noun listIndexing PolicyThesaurus …queryResultsCrawler ManagerIndexerIndex ManagerQuery ManagerCrawling ComponentIndexing ComponentQuerying Component
اسلاید 4: 4كاوش متمركز وبكاوش متمركز وب به عنوان راه حلي براي بازيابي اطلاعات وب صفحات مربوط به يك موضوع و يا از نوع خاص را جستجو و كپي كرده، شاخصبندي و نگهداري مي كند. نتايج مورد انتظار از كاوش متمركز يافتن بيشترين صفحات مربوط با كاوش كمترين ابرپيوند نامربوطتحقيقات مرتبطFishWeb WatcherPage-RankIBM Focused Crawler (Clever)CoraContext Focused CrawlerKAONApprentice
اسلاید 5: 5معماري كاوشگرهاي متمركزمؤلفه تنظيمات اوليه (صفحات اوليه كاوش)كاوشگر(هاي) وبوباسناد مربوط به موضوع مورد تمركزصف اولويت URLهاتشخيص ميزان تشابه صفحه به موضوع كاوش (دسته بندي كننده)تخمين ميزان ربط ابرپيوندهاي استخراج شده به موضوع صفحات مرتبطURLهاي استخراج شدهURLصفحه وبصفحه وبQ/ مقدار URLآدرس شروعURL حد آستانه
اسلاید 6: 6دستاوردهاي اين پروژهكاوش متمركز وب با استفاده از يادگيري تقويتيتوسعه روشهاي Cora براي محاسبه مقدار Q يادگيري تقويتي و پيشنهاد روشهاي جديداستفاده از دسته بندي كننده ماشينهاي بردار پشتيبان براي اولين بار در كاوشگرها و مقايسه با نتايج قبليارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي كاوشگر مانند متن اطراف ابرپيوند، تعداد دسته ها در دسته بندي كننده و مقدار گاما در محاسبه Qتوسعه پرس و جوي كاربر در كاوشگرهاي متمركز معرفي ابزار سلسله مراتب مفهومي با دامنه خاص و استفاده از آن براي توسعه خودكار پرس و جوي كاربر در معماري -CSََAKUطراحي، پياده سازي و ارزيابي الگوريتمي جديد براي يادگيري سلسله مراتب مفهومي با دامنه خاص با استفاده از اسناد آموزشي پيشنهاد يك معماري يكپارچه (با ارائه چارچوب فرمال ) براي موتورهاي جستجوي با دامنه خاص كه از سلسله مراتب مفهومي با دامنه خاص و استدلال بر پايه موارد براي يادگيري از جستجوهاي قبلي استفاده مي كند
اسلاید 7: 7يادگيري تقويتييادگيري تقويتيبه چارچوبي براي يادگيري خط مشي بهينه از محاوره با يك محيط پويا و با مكانيسم پاداش و جزا اشاره دارد.EnvironmentAgentSTATE , REWARDACTIONS: set of available States , A: set of available Actions,T: SAS, Transition FunctionR: SAR, Reward Function,: SA, Learned Policy *: Optimal Policy, which maximizes the values of states, for all state s.V*: Value Function of Optimal PolicyQ*: expected return of taking action a in state s, and thereafter following optimal policyrt: Received reward in t step after starting from s, : discount factor, V (s) = Value of state sQ*(s,a) = R(s,a) + V*(T(s,a))
اسلاید 8: 8يادگيري تقويتي براي كاوش متمركزخواصي از يادگيري تقويتي كه آن را براي كاوش متمركز مناسب مي سازد:توانايي مدل كردن پاداشهاي تاخيري (آينده) حاصل از تعقيب ابرپيوندهاامكان يادگيري از سعي و خطا – مناسب براي محيط هاي پويا و با تعداد داده هاي آموزشي كمكارآيي به صورت پاداش در طول زمان قابل اندازه گيري استمزيت كاوشگر يادگيري تقويتي بر كاوشگر متمركز معموليامكان در نظر گرفتن پاداش هاي آينده يك ابرپيوند در اولويت كاوش آن
اسلاید 9: 9نگاشت كاوش متمركز به يادگيري تقويتيتوابع T و R مشخص هستندپاداشهاي آني (R: Reward Function)سند مرتبط حاصل از كليك كردن ابرپيوندپاداشهاي آينده (V: Value function)سند (اسناد) مرتبط حاصل از تعقيب ابرپيوند در چند سطح بعدتر“عمل”: تعقيب (پيمايش) يك ابرپيوند خاص (A: set of actions) تعداد اعمال در اختيار، پويا و بزرگحالت شامل (S: set of states)مجموعه اسناد هدفي است كه بايد کاوش شوند.مجموعه پيوندهايي كه يافته شدهاند.
اسلاید 10: 10نگاشت كاوش متمركز به يادگيري تقويتي (ادامه)مشكلاتفضاي حالات بسيار بزرگ است.تعداد اعمال در اختيار هم بسيار زياد است فرض هاي كاوشگر يادگيري تقويتي Cora براي سادگي و تعميم مساله: حالت مستقل از اينست كه كدام اسناد هدف تابحال ديده شدهاند. تبديل تمامي حالات به يک حالتميزان ربط اعمال (ابرپيوندها) به موضوع (هدف) ميتواند با كلمات در همسايگي ابرپيوند متناظر با هر عمل مشخص شود. ميتوان بين ابرپيوندها تعميم انجام داد و آنها را بوسيله متن اطرافشان با هم مقايسه كرد.
اسلاید 11: 11طراحي كاوشگر متمركز يادگيري تقويتيامكان يادگيري برخططراحي كاوشگر يادگيري تقويتي در اين پروژهفاز آماده سازي بستر آزمايش و پيش پردازش فاز يادگيري فاز آزمايش
اسلاید 12: 12مشخصات بستر آزمايشعدم امكان استفاده از پايگاه هاي وب ايرانيبستر آزمايشپايگاه هاي وب بخش هاي علوم كامپيوتر چهار دانشگاه Boston، Brown، Pitt و UCDavis
اسلاید 13: 13طراحي كاوشگر يادگيري تقويتي (معماري بخش آماده سازي بستر آزمايش و پيش پردازش )مولفه تنظيمات اوليهكاوشگر اول-سطحپردازش سندپيش پردازشليست مقالاتتعداد مقالات در سطوح هر URLوبURL شروعL :تعداد سطوح كاوشURLصفحه وب URL / صفحه وبURL/ صفحهHTMLURL مقاله پايگاه داده درهمسازيليست URLهاي پايگاهURLپدر/ URLنتيجه كاوش
اسلاید 14: 14طراحي كاوشگر يادگيري تقويتي (معماري بخش يادگيري)كاوشگر اول-سطحنوع متن همسايگيURLصفحه وبپايگاه داده درهمسازيمحاسبه مقدار-Q هر URLمقدار-Q هر URLزوجهاي مجموعه كلمات/مقدار Q- براي هر آدرستعداد مقالات در سطوح هر URLدسته بندي بر اساس مقدار-Qمولفه تنظيمات اوليهيادگيرنده (دسته بندي كننده)دسته هاي آموزشيتعداد دسته هاروش محاسبهمتن ابرپيوند و همسايگي آن / مقدار- Q
اسلاید 15: 15دسته بندي كننده هاي متن دسته بندي كننده بيز ساده (مورد استفاده در Cora)روش آماري براي دسته بندي متن (احتمال تعلق يك متن به هر دسته)از روش بيز استفاده مي كند و كلمه “ساده” به اين معني است كه احتمال رخداد كلمات در هر دسته و سند را مستقل از هم در نظر مي گيرد.روش شناخته شده و پر كاربرد براي دسته بندي متندسته بندي كننده ماشينهاي بردار پشتيبان (SVMs)بر اصل حداقل سازي خطاي ساختاري در نظريه يادگيري محاسباتي تكيه دارد يافتن قضيه h كه حداقل خطاي مطلق را تضمين ميكند، معادل يافتن چند سطحي است كه داراي حداكثر حاشيه با بردارهاي پشتيبان در داده هاي آموزشي است
اسلاید 16: 16دسته بندي كننده هاي متن (دسته بندي كننده SVMs)دلايل تناسب ماشينهاي بردار پشتيبان براي دسته بندي متن ابعاد زياد فضاي ورودي – راه حل SVMsبه تعداد ويژگيها (صفات) بستگي ندارد. تعداد كم ويژگيهاي غير مرتبط تُنك بودن بردارهاي اسناد ماشينهاي بردار پشتيبان Transductive روش TSVMSيك نوع خاص از SVMsاست كه هدفش يادگيري از تعداد معدودي داده آموزشي است در دسته بندي متن نسبت به الگوريتم SVMsبه كارآيي بهتري دست يافته استدستاورد استنتاج Transductive به جاي استقراء (Induction) استفاده ميكند در استقرا، يادگيرنده سعي ميكند تا به طريقه استقراء يك تابع تصميم را نتيجه بگيرد كه داراي نرخ خطاي پاييني در تمامي توزيعهاي داده هاي آموزشي و آزمايشي براي يك يادگيري خاص باشد. در بسياري از موقعيتها مي خواهيم يك مجموعه از مثالها (مجموعه آموزشي) را با كمترين خطاي ممكن دسته بندي كنيم. اين مساله، هدف استنتاج Transductive است.
اسلاید 17: 17Immediate (Two classes): – std. FCIf the link is a paper its Q value is 1 else 0.Distance: Calculates Q values as gamma ^ (distance to the nearest reward)Future (Three classes):Calculate Q values for three classes - immediate, future, none. Score = 1 for immediate, gamma for future, zero for none. Future (Four classes):Calculates Q values for four classes - immediate, one-step, two-step, none.Score = 1 for immediate, gamma for one-step, gamma^2 for two-steps, zero for noneروشهاي محاسبه Q در اين پروژهروشهاي توسعه يافته از Coraروش آني (2 دسته) روش فاصلهروش آينده (3 دسته) آينده (4 دسته) آينده (5 دسته) آينده (موازي) تعداد مقالات تحقيقي روشهاي جديدروش برش مقدار تغيير خط مشي روش مكاشفه اي Future (Five classes):Calculates Q values for four classes - immediate, one-step, two-step, three-step, none. Score = 1 for immediate, gamma for one-step, gamma^2 for two-steps, gamma^3 for three-steps, zero for none.Future (Parallel):Calculates Q values as future reward, ∑Num(reward) * (gamma ^ distance)Papers:Calculates Q values as number of papers available from link.Cutoff:Calculates according to path, if value < $cutoff, gives value of 0.Number of traversed links leads to increase in exponent of gammamy $count = 0;for (my $i=0; $i < 10; $i++){ # Bonus reward for each item at this level for (my $j=0; $j < $depth[$i]; $j++) { $score_cutt += $gamma ** $count; $count++ } # link to move to next level $count++;}$score_cutt = 0 if ($score_cutt < $cutoff);
اسلاید 18: 18طراحي كاوشگر يادگيري تقويتي (فازآزمايش )مولفه تنظيمات اوليهكاوشگر يادگيري تقويتيدسته بندي كننده(بيز ساده يا ماشينهاي بردار پشتيبان)پايگاه داده درهم سازيصف اولويتURLصفحه وبURL / متن همسايگياحتمالات تعلقآدرس شروعمحاسبه مقدار-QURL/مقدار-QURL با بيشترين مقدار-Qليست مقالاتنتيجه كاوش
اسلاید 19: 19پياده سازي كاوشگر يادگيري تقويتيشرايط سخت افزاريپنتيوم IV با پردازنده MHz6/1 و با مقدار Ram برابر 512 مگابايت و ديسك سخت40 گيگابايت سيستم عامل و زبان برنامه نويسيسيستم عامل لينوكس و زبانهاي Perl و C تحت اين سيستم عاملمولفه هاي آماده مورد استفاده Webget Rainbow – Text Processing Package (Classification,…)Naïve Bayes ClassifierSupport Vector Machines Classifierكدهاي غير تجاري Cora
اسلاید 20: 20پياده سازي كاوشگر يادگيري تقويتي (تعداد آزمايشات انجام شده)تعداد آزمايشها با تمامي تركيب ها: 1200 آزمايشتعداد آزمايش انجام شده در اين پروژه852 = 4 * 213 روشهاي جديد: 30 آزمايش
اسلاید 21: 21پياده سازي كاوشگر يادگيري تقويتي (اجراي خودكار كاوشگر)مدير اجراGet Test NameConstruct training data...Create index model...;Make average of Q-Values of each class ...;Train naïve bayes classifier (Rainbow) and install it in port 1823...Run the test using naïve bayes classifierTrain SVMs classifier (rainbow with ) in different port (1824)Run the test using SVMs classifier
اسلاید 22: 22پياده سازي كاوشگر يادگيري تقويتي (برنامه تحليل نتايج و توليد نمودارها)
اسلاید 23: 23نتايج پياده سازي (مقايسه دسته بندي كننده هاي NB و SVMs در بستر آزمايش)
اسلاید 24: 24پارامترهاي ارزيابي كارآيي كاوشگرهاي يادگيري تقويتي معيار اول: درصد مقالات يافته شده به درصد صفحات كاوش شدهمعيار دوم: ميزان پاداش دريافتي در طول اجرا توسط كاوشگرمعيار سوم: تعداد مقالات تحقيقي كاوش شده تا درصد خاصي از كاوشIntegral_Sum = 0 // Calculating integral (space above curve)For index = 0 to Paper_number do If (index/Paper_Number <= Percent) Integral_Sum = Integral_Sum + Link_Number[index]// Calculating integral of under curveIntegral_Sum = Univ_Link_Number * Paper_Number – Integral_Sum// Calcultaing the percent of overall achieved reward Integral_Sum = Integral_Sum / (Univ_Link_Number * Paper_Number)
اسلاید 25: 25مقايسه تاثير دسته بندي كننده در كارآيي كاوشگر يادگيري تقويتي – معيار اول
اسلاید 26: 26مقايسه تاثير مقدار گاما در كارآيي كاوشگر يادگيري تقويتي – معيار دوم
اسلاید 27: 27مقايسه تاثير مقدار گاما در كارآيي كاوشگر يادگيري تقويتي- ادامه
اسلاید 28: 28مقايسه تاثير تعداد دسته ها در كارآيي كاوشگر يادگيري تقويتي
اسلاید 29: 29مقايسه تاثير متن همسايگي در كارآيي كاوشگر يادگيري تقويتي
اسلاید 30: 30مقايسه كارآيي كاوشگرهاي يادگيري تقويتي با جميع پارامترها
اسلاید 31: 31مقايسه كارآيي كاوشگرهاي يادگيري تقويتي با جميع پارامترها-ادامه
اسلاید 32: 32روش مكاشفه اي براي بهبود كارآيي كاوشگر يادگيري تقويتي
اسلاید 33: 33روش مكاشفه اي براي بهبود كارآيي كاوشگر يادگيري تقويتي- ادامه
اسلاید 34: 34بهبود كارآيي كاوشگر يادگيري تقويتي با تغيير خط مشي
اسلاید 35: 35مقايسه كاوشگرهاي يادگيري تقويتي، متمركز و اول-سطح
اسلاید 36: 36توسعه مكانيسم هاي پرس و جوي وب در كاوشگرهاي متمركزمشاهده واقعيت ها و كمبودهاي زيرتطابق دقيق كلمات كليدي در يافتن جواب پرس و جوي كاربران عدم استفاده از دانش حوزه مورد جستجوي كاربر جواب دادن به پرس و جوي كاربران عدم استفاده از دانش علايق و پيش زمينه هاي كاري و علمي كاربر راه حل پيشنهادي توسعه پرس و جوي كاربران با استفاده از يك سلسله مراتب مفهومي با دامنه خاصمزاياي راه حل پيشنهادي فرآيند توسعه پرس و جو يك فرآيند خودكار است كاربر نيازي به فراهم آوردن اسناد مرتبط به موضوع به عنوان ورودي سيستم ندارد.سلسله مراتب مفهومي با دامنه خاص از طريق يك فرآيند آماري بر روي متن ياد گرفته مي شود
اسلاید 37: 37سلسله مراتب مفهومي با دامنه خاصسلسله مراتب مفهومي (CH) چيست؟CH مجموعه اي از گره هاي مفهوماٌ مرتبط است كه در يك ترتيب جزيي مرتب شده اند.سلسله مراتب مفهومي با دامنه خاصنوعي از سلسله مراتب مفهومي كه شامل لغات فني يك دامنه خاص ا ستدستاورد اين پروژه در اين زمينهطراحي و پياده سازي الگوريتم مبتني بر يادگيري براي ساخت خودكار DSCH
اسلاید 38: 38DSCH - مثالComputer ScienceOperating SystemsArtificialIntelligenceHardware &ArchitectureHuman-ComputerInterfaceInformationRetrievalNatural LanguageProcessingMachineLearningPlanningRobotics...ReinforcementLearningNeural Network...RetrievalFiltering......Term1Term2….Term1Term2….Term1Term2….Term1Term2….Term1Term2….Term1Term2….
اسلاید 39: 39مراحل الگوريتم ساخت خودكار DSCHCrawling and Pre-ProcessingCawling the selected Hierarchy and Pre-Processing the documentsFirst ProcessFinding highly weighted words (TFIDF)Second ProcessFinding highly co-occurrence weighted WordsThird ProcessFinding Terms instead of separated WordsTFIDF: Term Frequency Inverse Document Frequency
اسلاید 40: 40مرحله كاوش و پيش پردازشكاوش سلسله مراتب انتخابي (Cora) و كپي كردن اسناد آموزشيحذف بخشهاي ثابت (سرآيند و زير نويس) و نام مولفان براي مقالات (“Author”, “References”, …words)بستر آزمايش100 سند آموزشي از هر گره Cora كپي و به عنوان مجموعه آموزشي استفاده شدهر سند اطلاعاتي راجع به يك مقاله در موضوع گره (نام، چكيده، نام مراجع و مقالاتي كه به اين مقاله اشاره كرده اند)
اسلاید 41: 41تعداد 25=N كلمه با بالاترين وزن TFIDF براي دسته “data Mining” WordWeightWordWeightWordWeight Data0.0483205Proceedings0.0108792classification0.0062527mining0.0460734Algorithm0.0102841Trees0.0062364Rules0.0335740Conference0.0077680Sigmod0.0062189databases0.0300237Machine0.0076521Acm0.0060270knowledge0.0290816research0.0075528Relational0.0053060association0.0260618ieee0.0074293intelligence0.0049911discovery0.0247404decision0.0074105Induction0.0047303Large0.0184948information0.0072554 learning0.0141196spatial0.0066830 اولين پردازش (يافتن كلمات با بيشترين وزن TFIDF در مجموعه اسناد آموزشي گره)
اسلاید 42: 42Word1Word2Co_o WeightWord1Word2Co_o WeightAggregationdata0.0629474GeographicData0.0693333AggregationMining0.0589019geographicMining0.0609187AssociationMining0.0571912integrationData0.0642788BasketsMining0.0591086QueryData0.0587437Clusteringdata0.0590085RelationalData0.0589771Clusteringmining0.0586942SpatialData0.0683995Correlationsmining0.0609724SpatialMining0.0621446Cubesdata0.0736354technologyData0.0620216Cubesmining0.0668675ToolsData0.0602633Dbminerdata0.0901771UsersMining0.0583686Dbminermining0.0783960warehouseData0.0950729Dimensionaldata0.0743458warehousesMining0.0794421Dimensionalmining0.0716238 دومين پردازش (يافتن زوج كلمات با بيشترين وزن رخداد همزمان)تعداد 25=N زوج كلمه با بيشترين وزن رخداد همزمان در گره “data mining”
اسلاید 43: 43TermWeightTermWeightTermWeightAssociation rule0.0023453062 spatial data 0.0003791043 mining application 0.0002056159 Large database 0.0018312665 Interesting rule 0.0003469768 Level association 0.0002056159 Data mining 0.0014907152 Database system 0.0003469768 attribute oriented 0.0002056159 relational database 0.0009895264 machine learning 0.0003212748 Base mining 0.0001991904 Decision tree 0.0006618261 multiple level 0.0002827218 learning algorithm 0.0001927649 knowledge discovery 0.0006232731 large set 0.0002698708 inductive learn 0.0001927649 relational data 0.0005461672 spatial database 0.0002570199 discovered association 0.0001927649 Mining association 0.0005140397 data cube 0.0002248924 Base system 0.0004369338 data set 0.0002120414 سومين فرآيند (يافتن عبارات به جاي كلمات)تعداد 25=N عبارت دو كلمه اي با بالاترين احتمال رخداد در گره “data mining”
اسلاید 44: 44TermWeightTermWeightmining association rule0.0000012981attribute oriented induction0.0000003407multiple level association0.0000005192data mining system0.0000003083Level association rule0.0000005192generalized association rule0.0000002758discovered association rule0.0000004868object oriented database0.0000002434spatial data mining0.0000003732data mining technique0.0000001947سومين فرآيند (يافتن عبارات به جاي كلمات)- ادامهتعداد 25=N عبارت سه كلمه اي با بالاترين احتمال رخداد در گره “data mining”
اسلاید 45: 45معماريAKU-CS Index DatabaseAKU-CS MiddlewareFocused Crawler (Cora)User InterfaceQuery Expansion ComponentDomain Specific Concept HierarchyQuery ExpanderResultsOriginalUsers QueryResultsExpanded Query (Itemized)QueryManagerRe-RankingComponentUsers Query (Itemized)
اسلاید 46: 46آزمايشات پرس و جو در معماري AKU-CS ارائه پرس و جوي “Reinforcement Learning Introduction” بدون توسعه پرس و جوتوسعه پرس و جو با استفاده از DSCH300 نتيجه اول برگردانده شده انتخاب و بر اساس ميزان شباهت با جستجوي توسعه يافته دوباره رتبه بندي گرديدسند فوق در رتبه بندي مجدد با پرس و جوهاي مشابه با فوق در 5 نتيجه اول بود
اسلاید 47: 47CBR چيست؟CBR نوعي از استدلال بر پايه استفاده مجدد از تجربه هاي گذشته كه مورد ناميده مي شوند براي حل مسائل جديد مشابه با مواردعناصر مورد در CBRProblem, Solution and Outcome (P, S, O)اجزا يك سيستم CBRمعيارهاي تشابهحافظه (پايگاه داده) موارددانش تطبيق موارد قبلي بر مورد جديداستدلال بر پايه موارد (CBR)
اسلاید 48: 48اهداف استقاده از CBR در DSSEاجتناب از جستجوهاي مجدد براي پرس و جوهاي مشابهيادگيري از جستجوهاي گذشته براي افزايش دقت نتايج موتور جستجو به جستجوهاي مشابه با جستجوهاي قبليچرا در DSSE قابل استفاده از است؟دو مطالعه مجزا بر روي موتورهاي جستجوي َAltavista و Excite بخش قابل توجهي از پرس و جوها بر روي موضوعات مشخص و مشابهي رخ مي دهند.در موتورهاي جستجوي همه منظوره پرس و جو ها مي توانند بر روي هر موضوعي ارسال شوند.مطالعات پرس و جوهاي از لحاظ مفهومي مرتبط را در نظر نگرفته اند.بر اساس يك تحليل كيفي مي توان انتظار داشت تعداد پرس و جوهاي مشابه در موتورهاي جستجوي با دامنه خاص قابل توجه باشد.CBR براي موتورهاي جستجوي با دامنه خاص (DSSE)
اسلاید 49: 49User QueryWWWUser ResponseKeywords & Concepts & Category.User InterfaceNatural Language ParserQuery (Question)+ CategoryResultsModified Query Domain Specific Concept HierarchyQuery Expansion ComponentQueryExpanderFocused CrawlerCase Based Reasoning ComponentReasoning UnitCase DatabasesIndex DB12354معماري يكپارچه براي موتورهاي جستجوي با دامنه خاص (AKUSearchEngine)
اسلاید 50: 50پايگاه داده موارد شاملپرس و جوي كاربردسته متناظر پرس و جو در DSCHURL هاي نتايج در صورت وجودامتياز صفحه (دريافت شده از موتور جستجوي اصلي)معيار تشابه موارد Sim(New_Case, Old_Case) = w1 Query_Similarity + w2 Class_Similarityw1+ w2 =1CBR براي موتورهاي جستجوي با دامنه خاص (DSSE)
اسلاید 51: 51User Query SimilaritySimple edit distance measure based on Levenshtein distance algorithmTFIDF (Term frequency * Inverse Document Frequency)Class similarity Sim(K3, K4) = Struc_Sim(K3, K4) * Bag_of_Word_Sim(K3, K4) L = Level_diff (<K3, K4>, K3) + Level_diff (<K3, K4>, K4) K3KK4<K3, K4>K1K2LKCBR براي موتورهاي جستجوي با دامنه خاص (DSSE)- ادامه
اسلاید 52: 521 , K1=K2 Term_Sim(K1,K2) , Otherwise Bag_of_Word_Sim(K1, K2) =w1 + w2 = 1 (manually defined) W = Words CW = Common Words CT = Common Terms (more than one word)CBR براي موتورهاي جستجوي با دامنه خاص (DSSE)- ادامه
اسلاید 53: 53تطبيق مواردرتبه بندي مجدد URL هاي جواب در مورد مشابه به مورد جديدادغام نتايج موارد مشابه و رتبه بندي مجدد اگر چندين مورد داراي تشابه بالايي هستندCBR براي موتورهاي جستجوي با دامنه خاص (DSSE)- ادامه
اسلاید 54: 54نتيجه گيريكاوش متمركز وب با استفاده از يادگيري تقويتيتوسعه روشهاي Cora براي محاسبه مقدار Q يادگيري تقويتي و پيشنهاد روشهاي جديداستفاده از دسته بندي كننده ماشينهاي بردار پشتيبان براي اولين بار در كاوشگرها و مقايسه با نتايج قبليارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي كاوشگر مانند متن اطراف ابرپيوند، تعداد دسته ها در دسته بندي كننده و مقدار گاما در محاسبه Qتوسعه پرس و جوي كاربر در كاوشگرهاي متمركز معرفي ابزار سلسله مراتب مفهومي با دامنه خاص و استفاده از آن براي توسعه خودكار پرس و جوي كاربر در معماري -CSََAKUطراحي، پياده سازي و ارزيابي الگوريتمي جديد براي ساختن خودكار سلسله مراتب مفهومي با دامنه خاص با استفاده از اسناد آموزشي پيشنهاد يك معماري يكپارچه (با ارائه چارچوب فرمال ) براي موتورهاي جستجوي با دامنه خاص كه از سلسله مراتب مفهومي با دامنه خاص و استدلال بر پايه موارد براي يادگيري از جستجوهاي قبلي استفاده مي كند
اسلاید 55: 55نتيجه گيري - ادامهبهبود كارآيي كاوشگرهاي متمركز يادگيري تقويتي استفاده از دسته بندي كننده SVMs باعث يافتن بسيار سريعتر صفحات هدف در نيمه نخست كاوش مي شود كه در كاوش متمركز بسيار مهم است.مقدار گاما: 1/0تعداد دسته ها: 3 دستهمتن درهمسايگي: كاوشگرهاي با دسته بندي كننده SVMs: متن مرتبطكاوشگرهاي با دسته بندي كننده NB: متن نزديكبهترين روش كاوش: nb_n_4_cut_g0.3 استفاده از روش مكاشفهاي در كاوش منجر به بهبود كارآيي كاوش و مخصوصاً منجر به يافتن سريعتر صفحات هدف در اوايل كاوش ميشود. استفاده از روش تغيير خط مشي منجر به بهبود كارآيي كاوشگرهاي ميشود.
اسلاید 56: 56نتيجه گيري - ادامهبهبود مكانيسم هاي پرس و جوي كاربر با توسعه خودكار پرس و جو، كاربر نيازي به فراهم آوردن اسناد اوليه مرتبط در جستجو ندارد.الگوريتم پيشنهادي براي ساخت خودكار DSCH مجموعه لغات مرتبط مفهومي را بصورتي موثر مي بايد. استفاده از DSCH براي توسعه پرس و جوي كاربر در معماري AKU-CS منجر به بهبود كيفيت نتايج موتور جستجو مي شود معماري AKUSearchEngine با بهره گيري از DSCH و CBR امكان ارائه نتايج با كيفيت و دقت بيشتر را به كاربر فراهم مي آورد.
اسلاید 57: 57پيشنهادات آيندهكاوشگرهاي متمركز يادگيري تقويتي بهبود روشهاي كاوش متمركز وب (با موضوع خاص) بوسيله سلسله مراتب مفهومي با موضوع خاص دسته بندي كننده هاي متن تطبيقي (پويا)آزمايش روشها بر روي بستر آزمايش شركت ها (يك صفحه هدف)يادگاري ساختار وب با استفاده از يادگيري تقويتي مكانيسم هاي پرس و جو استفاده از دانش مربوط به علائق و زمينه هاي تحقيقاتي و يا كاري كاربر در توسعه پرس و جو تشخيص خودكار دسته مورد نظر در DSCHاستفاده از الگوريتم هاي قويتر به جاي الگوريتم ساده TFIDF در يافتن كلمات مرتبطاطلاعات درون شاخص تهيه شده از صفحات وب (در موتور جستجو) به جا و يا در كنار شاخص اصلي، بصورت مورد در يك پايگاه داده درون كاوشگر متمركز نگهداري شوند
اسلاید 58: 58مهم ترين مراجع مورد استفادهChakrabarti S., Van Der Berg M., and Dom B., Focused crawling: a new approach to topic-specific Web resource discovery, In Proceedings of the 8th International World-Wide Web Conference (WWW8), 1999. McCallum A. K., Nigam K., Rennie J. and Seymore K., Automating the construction of internet portals with machine learning, In Information Retrieval Journal, 1999.Rennie J. and McCallum A., Using reinforcement learning to spider the web efficiently, In Proceedings International Conference on Machine Learning (ICML), 1999. Joachims T., Transductive Inference for Text Classification using Support Vector Machines, Proceedings of the International Conference on Machine Learning (ICML), 1999. Kaelbling L. P., Littman M. L., and Moore A. W., Reinforcement learning: A survey, Journal of Artificial Inteligence Research, pp. 237-285, May 1996.Sutton R. S., Barto A. G., Reinformcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998.Han J. and Fu Y., Dynamic Generation and Refinement of Concept Hierarchies for Knowledge Discovery in Databases, AAAI94 Workshop on Knowledge Discovery in Databases (KDD94), Seattle, 1994, pages 157-168.Bartsch-Spörl B., Lenz M. and Hübner. A., Case-Based Reasoning – Survey and Future Directions, Knowledge-Based Systems, Lecture Notes in Artificial Intelligence, Vol. 1570, Springer-Verlag, Berlin, pp. 67-89, 1999,
اسلاید 59: 59H. R. Motahari Nezhad, A. A. Barfourosh, Expanding Reinforcement Learning Approaches for Efficient Crawling the Web, The World Multi Conference on Systematics and Cybernetics and Informatics (SCI’2003), July 27 - 30, 2003, Orlando, Florida, USA. To Appear. A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning Approach to Domain Specific Search Engines, International Journal of Applied Science and Computations, USA, To Appear.H.R. Motahary Nezhad, A. A. Barfourosh, A New Approach to Expand Users Query in Domain Specific Search Engines, in Proceedings of Eight International Computer Society of Iran Conference (CSICC2003), Mashhad, Iran, 25-27 February, 2003.A. Barfourosh, H.R. Motahary Nezhad, A Case Based Reasoning Framework for Domain Specific Search Engine, Proceedings of The 2002 International Arab Conference on Information Technology (ACIT’2002), Vol 1., Qatar, pp. 20-29, December 16-19, 2002. مقالات ارائه شده
اسلاید 60: 60H. R. Motahary Nezhad, A. A. Barfourosh, Focused Crawling Trends as a New Approach to Web Crawling: Problems and Limitations, First National Computer Conference (NCC2002), Mashhad – Iran, December 2002.A. A. Barfourosh, H.R. Motahary Nezhad, Design of an Information Integration Environment based on Active Logice, Technical Report in Department of Computer Engieeering, Amirkabir University of Technology, Tehran – Iran, November 2002.A. Barfourosh and H. R. Motahary Nezhad, A New Approach to Information Retrieval based on Case Base Reasoning and Concept Hierarchy in Cora, Accepted in Third International Conference on Data Mining Methods and Databases for Engineering, Finance and Other Fields (Data Mining 2002), Bologna, Italy, September 25-27, 2002.H. R. Motahary Nezhad, Toward Next Generation Search Engines, in proceedings of 5th student computer conference, University of Science and Technology, May 22-24, 2002, Tehran - Iran.مقالات ارائه شده - ادامه
اسلاید 61: 61A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D. Perlis, ALLI: An Information Integration System Based on Active Logic Framework, in Proceedings of Third International Conference on Management Information Systems, Greece, 24-27 April 2002, pp.339-348. http://www.cs.umd.edu/~anderson/papers/MIS2002.pdfA. A. Barfourosh, H.R. Motahary Nezhad, M. Onderson and D. Perlis, Information Retrieval in WWW and Active Logic: Survey and problem definition, Technical Report in Department of Computer Science of University of Maryland and Institute of Advance Computer Science in University of Maryland, USA, CS-4291, 2002. http://www.cs.umd.edu/Library/TRs/CS-TR-4291/CS-TR-4291.pdfمقالات ارائه شده - ادامه
اسلاید 62: 62 با تشكر و سپاس از حضور و توجه شما
خرید پاورپوینت توسط کلیه کارتهای شتاب امکانپذیر است و بلافاصله پس از خرید، لینک دانلود پاورپوینت در اختیار شما قرار خواهد گرفت.
در صورت عدم رضایت سفارش برگشت و وجه به حساب شما برگشت داده خواهد شد.
در صورت بروز هر گونه مشکل به شماره 09353405883 در ایتا پیام دهید یا با ای دی poshtibani_ppt_ir در تلگرام ارتباط بگیرید.
- پاورپوینتهای مشابه
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.