صفحه 1:
به نام خدا Google Search Engine 7 تبیه کننده:مبدی پاری استاد راهنماءآقای طالبی دانشکده فنی منتظری 1387.03.13

صفحه 2:
ظهور اینترنت و سپس رشد و گسترش روز افزون ( شبکه جهانی وب) فهرستها و چالشهای نوینی را در فرایند اطلاع یابی پدید آورد. امکان جستجو و دسترسی به حجم زیادی از اطلاعات از طریق اینترنت,فعالیت های آموزشی , تحقیقاتی, تجاری و ... را تحت تاثیر خود قرار داده است.مشکل اصلی فرایند اطلاع یابی در اینترنت بازیابی حچم کمی از اطلاعات و منابع اطلاعاتی نیست , بلکه مشکل جدیدی تحت عنوان (بازیانی بیش از حد اطلاعات) ندید آمدح است: در گذشته کاربران: تیاز کمتری به فراگیری مهارتهای جستجو داشتند و اغلب از متخصصان اطلاع رسانی برای دسترسی ‎al‏ اطلاعات کنک می,گزفتنة: آها آمزفزه باید تدون تحضوز, یک واسظ انسانی و داشتن دانش کافی درباره اصول و مهارتهای جستجو و بازیابی اطلاعات به کاوش در اینترنت و فراگیری اصول و مهارتهای اطلاع یابی برای جستجو گران مهم و حیاتی شد. اطلاع یابی, مجموعه مهارتهای مورد نیاز برای شناسایی,دسترسی و جستجوی اطلاعات است .

صفحه 3:
چرا باید در شبکه جهانی وب به جستجوی اطلاعات پرداخت 1.منحصر بفرد بودن : برخی از منابع اطلاعاتی در شبکه جهانی وب نمونه چاپی یا الکترونیکی( بر روی دیسک فشرده یا شبکه های پیوسته )ندارد. پایگاه اطلاعاتی مقالات تمام متن ‎LolS Yio sgl> oS find articles‏ هزاران مقاله است ننها از طزیق شنبکه جهانی :وب قابل دستتزنتن است:و نسبحه خاپی يا الکتزونیکن ندارد. بسیاری از منابع مرجع مانند فرهنگها راهنماها و سرگذشتنامه ها منحصرا از طریق محیط وب در دسترس قرار می دهند : 2.روز آمد بودن: یکی از ویژگیهای مهم شبکه جهانی وب نسبت به رسانه های چاپی انعطاف پذیری بیشتر آن برای روز آمد سازی اطلاعات در زمان کوتاهتر است. امروزه اطلاعات بسیاری از پایگاههای اطلاعاتی در وب نظیر ‎ERIC,(www.ncbi,nim.nih.gov/pubmed)(http://askeric.org/eric)‏ ۷۱۴0۱۱۴ و پروانه های ثبت اختراع امریکا (۱۱52۲0.90۷ ۷۷/۷/۰) هر هفته به روز می شو ند. 3. رایگان بودن : برخی از منابع اطلاعاتی در شبکه وب رایگان هستند و همین موضوع انگیزه ای قوی برای جستجوی اطلاعات در این محیط به وجود آورده است. مثال از طریق ) ‎onelook dicionaries (www.onelook.com‏ میتوان به طور رایگان در بیش از 800 فرهنگ پیوسته رایگان (بیش از 8/4 میلیون واژه)به جستجو ‎esl»,‏ یا از طریق سایت ‎vie national academic press(www.nap.edu)‏

صفحه 4:
4.سهولت جستجو و بازیابی اطلاعات :سهولت جستجو و باز یابی اطلاعات از طریق کلید واژه های مورد نظر را در کادر جستجو وارد کرد و فرایند بازیابی اطلاعات را در پیش گرفت. در بسیاری از موارد جویندگان اطلاعات ترجیج می دهند به جای مراجعه به کتابخانه ها و مراکز اطلاع رسانی از طریق کامپیوتر شخصی خود به جستجوی اطلاعات مورد نظر بپردازند زیرا جستجوی کلید واژه ای یا مرور صفحات وب بسیار آسانتر از شیوه های سنتی دسترسی به اطلاعات است .سهولت انجام جستجو (نه بازیابی اطلاعات مورد نظر )در محیط گراقیکی وب حتی بر رفتار اطلاع یابی دانش آموزان نیز تاثیر اشته است به طوری که بسیاری از دانش آموزان آمریکایی جستجوی کلید واژه ای در وب را به جستجو در برگه دان کتابخانه ها ترجیح میدهند و عقیده دارند که استفاده از این محیط برای انجام تکالیف درسی و تحقیق به مراتب آسانتر است . 5.دسترسی به اطلاعات چند رسانه ای : یکی از مهمترین قابلیتهای شبکه جهانی وب , امکان جستجو و بازیابی حجم بسیار زیادی از اطلاعات چند رسانه ای شامل صوت,تصویر و ویدیو است.

صفحه 5:
سیر تحول تاریخی ابزارهای کاوش شبکه جهانی اینترنت در اواخر دهه 1960 پا به عرصه ظهور گذاشت , اما تا سال 0 ابزارهایی برای کاوش اطلاعات موجود در آن وجود نداشت. با مروری اجمالی بر تاریخچه ابزارهای کاوش اینترنت میتوان دریافت که تقریبا کلیه پیشرفتها در اين زمینه توسط دانشجویان و طرحهای پژوهشی آنها صورت گرفته است. در سال 1990 اولین ابزار کاوش اینترنت توسط آلان امتیج (2۳0۲۵96 ۸۱۵0) در دانشگاه ‎cos MacGil University‏ عنوان ۸۲6۱6 توسعه یافت. اين ابزار کاوش تنها میتوانست فایلهای اینترنتی, نه متن و اسناد موجود در اینترنت را بازیابی کند. در سال 1993 در دانشگاه نوادا برای بازیابی اسناد و متون در سرورهای گوفر نظامی«مشایه آرکن «ظراحی: شد که,وزونیکا نام داشت::در واقع وزونیکا بزای آولین: بار امکان جستجو و باز یابی متن و اسناد ساده (بدون تصویر یا پیوندهای فرامتنی ) را در اینترنت فراهم کرد . آرکی و ورونیکا پدر و مادر تمام ابزارهای کاوش امروزی به شمار می آیند. بعدها دو ابزار کاوش برای جستجوی اطلاعات در محیط وب توسعه یافتند که عبارت بودند از آلی وب و ورالد واید وب واندرر . ورالد واید وب واندرر که توسط ماتژگری در دانشگاه ۱/۱۲توسعه یافت از روبات ها به تعبیر دیگر برنامه های کامپیوتری برای جستجو و نمایه سازی صفحات وب استفاده می کرد. به اين ترتیب اولین موتور کاوش پا به ظهور گذاشت و پایگاه موتور کاوش تحت عنوان وندکس شکل گرقت .

صفحه 6:
!تلا در اوایل سال 1994 دو دانشجوی دوره دکتری مهندسی برق دانشگاه استانفورد به نامهای دیوید فیلو و جری یانگ فهرستی از سایتهای وب مورد علاقه و منتخب را تهیه و در محیط وب ارائه کردند . سپس به منظور جستجو در پایگاه اطلاعاتی گرد آوری شده از سایتها , نرم افزار کاوشی ‎(www.yahoo.com) |b ul 5 2529581 ul a‏ ۵0 نام نهادند . پس از مدتی , حجم اطلاعات موجود در ۱۷۵۳۵0 افزایش یافت و روزانه هزاران نفر به آن مراجعه کردند. ‎Alta vista (www.altavista.com) 1995 rolw> 52‏ به عنوان یکی از شناخته شده ترین موتور های کاوش ظهور پیدا کرد و به دلیل ویژگیها و نوآوریهایی که در آن پیش بینی شده بود, به سرعت به عنوان یکی از بهترین ابزارهای کاوش اینترنت مطرح شد: به طوری که توانایی انجام روزانه میلیونها جستجو را بدون کاهش سرعت بازیابی اطلاعات به همراه داشت .۷53 ۸۱62 اولین موتور کاوشی بود که از زبان طبیعی ( مانند جستجوی جمله آب و هوای تهران چطور است ؟) و عملگرهای بول برای باز یابی اطلاعات در محیط وب استفاده کرد . در ماه می 1996 (۷/۷۷۷۰۵۵/۵۵۲,6۵۳0) ]50 ۲۱۵۲ به عنوان یکی دیگر از ابزارهای کاوش مهم ایداع شد که روبات آن قادر بود روزانه حدود 10 میلیون صفحه در محیط وب را در پایگاه خود نمایه کند. در سال 1995 اولین ابر موتور کاوش توسط آریک سلبرگ تحت عنوان ۷/۷/۷۰۳۵۱۵6۲۵۷/۱6۲6۵۳0) )۱۸6۲۵6۲۵۷۷۱۵۲ ظهور پیدا کرد . اين ابر موتور کاوش می توانست در پایگاه شش موتور کاوش و راهنمای موضوعی به طور هم زمان به جستجو بپردازد .

صفحه 7:
Google در اواخر سال 1997 یکی از بزرگترین و مهمترین ابزارهای کاوش امروزی یعنی موتور کاوش 600916 (۵۵0916.0۳0. ۷/۷۷ ) از طریق طرح تحقیقاتی دانشگاه ستانفورد ظهور یاقت . | 60091 تلاش كرد كه در نظام رتبه بندى نتايج کاوش خود مبتنی بر میزان ارتباط آنها با کلید واژه های جستجورتحول اساسی به وجود آورد که از طریق استفاده از معیار میزان استناد به یک سایت مشخص توسط سایت های دیگر صورت مي گيرد. * 2

صفحه 8:
ابزارهای کاوش اینترنت چیست؟ ابزارهای کاوش اینترنت پایگاههای اطلاعاتی جسنجو یا مرور هستند که با استفاده از نها میتوان به «بخشی » از اطلاعات موجود در اینترنت دست یافت . این ابزارها به دو شیوه کاربران را به سوی اطلاعات مورد نظر راهنمایی می کنند: جستجوی کلید واژه ها مرور و انتخاب پیوندهای فرامتتی کاربران را به سوی اطلاعات مورد نظر, هدایت می کنند . ابزارهای کاوش اینترنت را ميتوان به دو نوع اصلی تقسیم بندی کرد: راهنمای موضوعی موتورهای کاوش 1 راهنماهای موضوعی : زاهنقای توصوعن وتان آهاتی رسد که اظلاطات :صحات با سا نتفای توب منتخت:زا توسط نیروی: انسانی:دز پایگاه:خود: نمایه مق کنند: 2 موتورهای کاوش : موتورهای کاوش , پایگاههای اطلاعاتی قابل جستجویی هستند که از طریق برنامه هاي کامپیعتریبه* شناساین و نمایهبازی خودکار: صفحاتوب؛سن پزدازند:. موتورهای کاوش بر خلاف راهنماهای موضوعی , برنامه های خودکاری هستند که هد گوس اتکی سریووی اسان بدارند جع عور دوي نوارند شناسایی,انتخاب و نمایه سازی اطلاعات وب توسط برنامه های کامپیوتری انجام می شود .

صفحه 9:
موتور جستجو چگونه کار می کند؟ وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود, کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا" پایگاه داده اش را آماده کرده است و اين گونه نیست که درست در همان لحظه جستجو, تماق وب زا نگردد. بستیارق از خود می پزستد كه جكونه ممكن است گوگل در کمتر از يك ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه کند؟ و هیچ موتور جستجوگر دیگری توانایی انجام اين کار را ندارند. همه آنها در زمان پاسخ:گوبی: به جستجوهای کاربران,تتها در ایگه داده ای که در اختيار دارقد به جستجو می پردازند و نه در وب! موتور جستجوگر به كمك بخش های متفاوت خود, اطلاعات مورد نياز را قبلا" جمع آوری, تجزیه و تحلیل می کند. آنرا در پایگاه داده اش ذخيره مى نمايد و به هنكام جستجوی کاربر تنها در همین پایگاه داده می گردد. بخش های مجزای يك موتور جستجوگر عبارتند از: ۲ با عنکبوت ۲ با خزنده ۲۳ با بایگانوک ننده 6 با پایگاه داده ۲ با سیستم رتبه بندی

صفحه 10:
الف ۵106۲ 5-عنکبوت اسپایدر یا روبوت (805۵6), نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز يك موتور جستجوكر زا بز عهده دارد. اسنبايدنبه.ضفعات مختلف ‎aloe pa‏ محتواى أنها را مى خوائد. لينكها را دنبال می کند. اطلاعات موردنباز را جمع آوری می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد. کار يك السباندرم سيار شبيه كار كاريران وب است: :هماتطون كه كاريزان:صفحات مختلف بز بازدید می کنند. اسپایدر هم درست این کار را انجام می دهد با اين تفاوت که اسپایدر کدهای ۲۱۲۱/۱ صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن اين کدها را. 1006.۲۱ صفحه ای است که کاربران آنرا به صورت شکل (1) می بینند: 1 Ya 2001 by Mehdi Roudaki ۳۳۳8۲۲

صفحه 11:
شکل 1- نمونه ای از صفحات وب که توسط مرورگرها نشان داده می شود. آما یک اسپایدر آنرا چگونه می بیند؟ ‎sly‏ اين که شما هم بتوانید دنیای وب را از دیدگاه يك اسپایدر ببینید, کافی است که کدهای ۷۱۲۲/۲ صفحات را مشاهده کنید. برای اين کار در مرورگر مورد استفاده خود, مسیر نشان داده شده در شکل (2) دنبال کنید. ‏با انجام اين کار قایل متنی شکل (3) به شما نشان داده می شود: ‏موم نس ‏شکل 3- کدهای ۲۱۲۱۷۱ سازنده يك صفحه وب ‎

صفحه 12:
اسپاندز::نه هنگام مشاهده: صفعات: :یز زوق بتزوزها زدبا پزجاق می گذازد. ستتا اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید, می توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است. یکی از فعالیتهای اصلی که در 5۴ انجام می شود تحلیل آمار همین دید و بازدیدها است. اسپایدرها کاربردهای دیگری نیز دارند. به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن لينك های آنها می پردازند و یا به دنبال آدرس ایمیل (/[8۳0۵) می گردند. ب- ‎Crawler‏ (خزنده) کراولر, نرم افزاری است که به عنوان يك فرمانده برای اسپایدر عمل می کند. آن مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصميم مى كيرد كه كدام يك از لينك هاي صفحه اى كه اسپایدر در حال حاضر در آن قرار دارد, دنبال شود. ممکن است همه آنها را دنبال کند, بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند. کراولر, ممکن است قبلا" برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه, در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لينك های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند (می خواهد) در پایگاه داده اش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.

صفحه 13:
شما به عنوان دارنده سایت. همان طور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند. مى توانید آنها را از بعضی صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در قايلى خاص بررسى مى كند و از حقوق دسترسى خود اطلاع می يابد. تنظيم ميزان دسترسى موتورهاى جستجوكر به محتواى يى سايت توسط پروتکل 800015 انجام می شود. به عمل کراولر , خزش (0۲۳3۷/۱9) می گویند . ج- ۱۱066۲ (بایگانی کننده) تمام اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است, چه حجمی دارد. کلمات موجود در آن کدامند, کلمات چندبار تکرار شده اند, کلمات در کجای صفحه قرار دارند و در حقیقت ایندکسر, صفحه را به پارامترهای آن خرد می کند و تمام اين پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحاأت مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات, ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر 2 5 , ۰۷۷۷۷۷۷ ۳6 , 20 , و ... . از اين گونه کلمات هستند.

صفحه 14:
تمام داده های تجزیه و تحلیل شده در ایندکسر, به پایگاه داده ارسال می گردد. در اين بخش داده ها كروه بندى, كدكذارى و ذخيره مى شود. همجنين داده ها قبل از آنکه ذخبره شوند, طبق تکنیکهای خاصی قشرده می شوند تا حجم کمی از پایگاه داده را اشغال کنند. يك موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده يك موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است. و- ۵06۵۲ (سیستم رتبه بندی) بعد از آنکه تمام مراحل قبل انجام شد. موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی (80 56276) آن وارد می کنند و سپس با فشردن ۴0۲6۲ منتظر پاسخ می مانند. برای پاسخگویی به درخواست کاربر, ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده, مرتبط هستند. مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده, آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد. حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند. يك موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تبنده يك موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در اين بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران, پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختبار

صفحه 15:
حرفه ای های دنیای 5۴ به طور خلاصه از آن به ۸۱90 ( الگوریتم) یاد می کنند. الگوریتم, مجموعه ای از دستورالعمل ها است که موتور جستجوگر با اعمال آنها بر پارامترهای صفحات موجود در پایگاه داده اش, تصمیم مى كيرد كه صفحات مرتبط را چگونه در نتايج جستجو مرتب کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد. می توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده. موتور جستجوگر را شامل سه بخش زیر دانست که اين گونه تقسیم بندی هم درست می باشد: کراولر بایگانی سیستم رتبه بندی تذکر- براي سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به میان می آید, مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور جستجوگر وارد می شود.

صفحه 16:
Open Directory (www.dmoz.org) ‏راهنمای موضوعی‎ 2 به عنوازيكواز مهمترينو جامع ترین‌راهنماها یم وضوعیوبدر ژونن1998 تحنعنولن۱۱6۷۲۷۵0 در دسترس‌قرار گرفت‌لین‌ابزار کاوشت وسط ویراستاران داوطلباداه ميشود و نها در سراسر دنیا وظیفه بریسیو وارد کردن‌سایتهای معرفیشده را بر عهده دارند. طبقمار ارلئه شده 7 وسط لین‌سایها آبانماه 1 حدود 53 هزار ویراستار داوطلییا سایتهمکاروداشتند. توصیفارلئه شده برای‌هر سایناز کیفینو محتوای‌خوبیب رخوردار است‌بعلاوه, لین راهنمایموضوعی هیچ هدفت_جاریو لنتفاعین‌دارد و همگان‌میتولنند با آنبه عنوان‌ویراستار موضوعی اهمکایفک ند با سایبهاترعط و یبا کیفیترا ز ری هام وس عرمهتلیان معرفین‌مایند. برخماز مهمترین‌ابزارهایکاوش‌ن ‎lycos 9 Google. HotBot pl‏ در ب خش‌راهنمایموضوعی‌خود از پایگاه 01۳66۷0۳۷ 006۳ لستفاده میکند. نقاط قوت: بزرگترین راهنمای موضوعی که توسط انسان اداره میشود غير انتفاعى بودن و غير تجارى بودن سايت دارای ساختار سلسله مراتب موضوعی قوی و نسبتا جامع سیاست نمایه سازی برای گنجاندن سایتهای با کیفیت و معتبر داراق افکانات جشتجوی مناست تتببت به سای راهنفاهای ‎ie Grass‏ امکان انجام جستجو در یک تقسیم موضوعی مشخص و خاص امکان جستجو از طریق عملگرهای بول و ریاضی

صفحه 17:
نقاط ضعف: در موارد معدودی: کیفیت سایتهای نمایه شده, یک دست و هماهنگ نیست نسبت به موتورهای کاوش پایگاه اطلاعاتی کوچکی دارد عدم حساسیت به بازیابی کلید واژه با حروف بزرگ یا کوچک ‎pas‏ امکان استفاده از عملگر نزدیک یابی ‏عدم امکان محدود کردن کاوش از طريق زبان و تاريخ ‏عدم امکان تعیین مدخل ها برای نمایش در هر صفحه ‎

صفحه 18:
MSN Search )۲۱۲۵۵://56۵۲6۳۰۴05۰6۵۲0( ‏موتور کاوش‎ ۳6 ۱/5۱1 موتور کاوشیاسبکه تتوسط شرکنمایکروسافتوله اندازعشد. لین موتور کاوش‌برایبازیابیاطلاعاتاز پایگاه 0۲00۳0 و راهنماعموضوعی!۱00 ۲ لستفاده میکند در ب‌خش‌جستجوعساده آن مک سیجیویها ابل‌ دیزی اسداما در بخشجستجووييشرفته. قابليتهائنسبتا مناسبىييشبينوشده است بر آورد دقیقیاز حجم پایگاه لطلاعاتیآن‌وجود ندارد. لین‌موتور کاوش از لحاظ جلو يركاز باز يابىوسايتهائفير اخلاقى سيار مطمئناستو تخود کار از بازيابىجنينسايتهايىجلوكّيرىميكند. نقاط قوت: امكان جستجو از طريق قابليت ‎Page Depth Limit‏ داراى برنامه غلط یاب خود کار کلمات انگلیسی امکان رتبه بندی نتایج بر اساس تاريخ, عنوان و عمق سایت امکان جستجوی فرمت های مختلف فایل پیشرفته نقاط ضعف: عدم استفاده از عملگرهای بول در جستجوی ساده بازیابی نتایج متفاوت از طریق عملگر به کارگیری عملگر کوتاه سازی عدم امکان استفاده از عملگر نزدیک یابی عدم امکان ترجمه سایتها به زبانهای مختلف عدم امکان محدود کردن تاریخ انتشار صفحات وب

صفحه 19:
موتور کاوش ‎HotBot (www.hotbot.com)‏ ۲ در ماه می 1996 ظهور پیدا کرد. اين موتور کاوش دارای امکانات و قابلیتهای جستجوی پیشرفته و مناسبی به ویژه در بخش جستجوی ساده است. در واقع, بسیاری از قابلیتهای جستجوی ساده, طراحی شده و در دسترس قرار گرفته است. راهنمای موضوعی ۲۱۵۲80۲ از پایگاه 01۳۵6۷۵۳۷ 006۳ استفاده میکند. اين موتور کاوش از دو پایگاه ۱۳۷۵۲ و ۲۱ 01۳66۲ برای بازیابی نتایج اصلی بهره د. طبق اخرین آمار مستند برآورده میشود که این موتور کاوش بیش از 500 میلیون صفحه وب را در پایگاه خود نمایه کرده است. نقاط قوت: امکانات جستجوی پیشرفته در بخش جستجوی ساده امکان جستجو از طریق قابلیت ‎Page Depth Limit‏ (كاوش مبتنی بر عمق صفحات وب) امکان جستجوی فرمت های مختلف فایل در بخشهای جستجوی ساده و پیشرفته تمايش أظلاعات به ضورت مفضل ومختهر امکان جستجوی نام یک شخص از طریق گزینه ۴6۲5۵۳ ۲06"

صفحه 20:
نقاط ضعف: جستجوی صفحات پیوند داده شده ‎Link Search‏ 9 نیست. دارای پایگاه اطلاعاتی نسبتا کوچک مه به آهستگی 7 میکند برخی از قابلیتهای کاوش در بخش جستجوی پیشرفته هميشه درست کار نمیکند فاقد عملگر نزدیک یابی است عدم امکان ترجمه سایتها به زبانهای مختلف عدم امکان جستجوی کلید واژه ها در قالب پیوند فرامتنی نداشتن برنامه غلط یاب خود کار برای تصحیح املای کلمات انگلیسی حساس نبودن نسبت به کلید واژه ها با حروف بزرگ و کوچک 7 امکان حذف نتایج تکراری از سایتی واحد و برعکس. دسترسی به سایتهای ابه

صفحه 21:
موتور کاوش(۸۱۱۲۱۵۷/۵۵.6۵۲۴ 563۳6)۷۷۷۷۷۰ 5ج ‎search‏ ]۴5در ماه می 1999 در دسترس کاربران اینترنت قرار گرفت . این موتور کاوش با عنوان ۷۷60 ۲06 ۸ هم شناخته میشوند و نشانی دسترسی آن نیز مشابه اين نام است(۷۷۷۷/۰3۱۱۵۱6۷/60.60۳۱). این موتور کاوش در اوایل مرداد ماه 1 مدعی شد با 2.1 میلیارد صفحه, از بزرگترین ابزارهای کاوش اینترنت است. قابلیتهای جستجوی اطلاعات: ‏562۲6 ۴۵5۲ امکان‌استفاده از عملگرهایبول(بجز 80/0 ). جستجوعت رکیبیو کوتاه سازعرا ارلثه ن میدهد و تنها میتوان‌از عملگرهایریاضی+ و - استفاده کرد. براىاجراىعملكرهاىي ولبايد از بخ شجستجوىييشرفته و فهرسياأنتخاب استفاده کرد. ‏نقاط قوت: ‏یکی از بزرگترین پایگاههای اطلاعاتی در میان ابزارهای کاوش ‏سرعت بازیابی بالا ‏در میان ابزارهای کاوش, بیشترین تعداد زبان(49 زبان) را پوشش میدهد. امکان دسترسی به کلیه نتایج بازیابی شده ‎

صفحه 22:
امکان بازیابی فایلهای ۲۵۴ و ۲۲۴ امکان محدود کردن جستجو از طریق حجم صفحات وب براساس کیلو بایت دارای بخشهای جستجوی جدا گانه برای بازیابی اطلاعات چند رسانه ای شامل بت,تصویر و ویدئو جستجو در نشانی پروتکل اینترنت(۸00۳655 ۱۴) که منحصر به فرد است. تمانة سسازی"ضفحات ونیا به اصوزت‌تمام منق نقاط ضعف: عدم امکان استفاده از عملگرهای بول, کوتاه سازی و نزدیک یابی محدود بودن امکانات جستجو در فیلدهای مختلف عدم امکان ترجمه سایتهای بازیابی شده نداشتن برنامه غلط یاب خود کار برای تصحیح املای کلمات انگلیسی حساس نبودن نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک عدم امکان حذف نتایج تکراری از سایتی واحد و برعکس, دسترسی به سایتهای مشابه

صفحه 23:
راهنمای موضوعی ۱۷۵۵۵ بدون شک ۷۵۳۱۵0!شناخته شده ترین, پر مراجعه ترین و عامه پسند ترین ابزار کاوش اینترنت است. هرچند که امروزه با ظهور راهنماهای موضوعی بزرگتر و قدرتمند تری نظیر ‎aS DMOZ‏ از محبوبیت آن به ویژه در میان محققان و کاوشگران حرقه ای کاسته شده است. ۱۷۵۳۵۵ در اواخر سال 1994 در دسترس قرار گرفت و ابتکار طراحان آن در جهت شناسایی و تقسیم بندی موضوعی سایتهای اینترنت توسط انسان باعث شد تا هم اینک روزانه دهها میلیون نفر در سراسر جهان به آن مراجع کنند. طبق آخرین ‎lel‏ حدود 1.8 میلیون سایت در پایگاه اين راهنمای موضوعی نمایه شده است و بیش از 150 ویراستار به کار شناسایی یا توصیف سایتهای اینترنت در آن مشغول فعالیت هستند. 0 بکلبزار کاوشکاملا تجارعاست‌به طورعکه سایتهاعت جارعب ا پرداختجدود 300 دلار میتولنند ثبسایتخود در آن‌اقدام کنند. پرداخت لین‌هز معناعوارد شدندر پایگاه ۱۷۵۳00 ن لکه لین‌مبلغ بسه عنولن هزینه ب-رسی‌ساینه ریافتميشود. تبلیغاتو خدماتجانبی‌دیگر از پس کترونیکی چت موسیقی‌گرقته تا وضعیتآبو هواء ورزش‌و خرید ف روشاجناس .. ماهیتاصلی۷3۳00! را به عنوانی کراهنمایموضوعی‌سایتهاعوبدر جهان‌تا زیادعت ‎wile‏ قرار داده است۷۵/06! داراعامکاناتجستجو و بازیابی نسبتا ضعیفی‌است

صفحه 24:
نقاط قوت: شناخته شده ترین و پر مراجعه ترين ابزار کاوش اینترنت دارای خدمات جانبی عامه پسند برای عموم مردم نقاط ضعف: ‎prs‏ امکان استفاده از عملگرهای بول ‏عدم استفاده از پرانتز برای انجام جستجوهای پیچیده ‏عدم حساسیت به بازیابی کلید واژه ها با حروف بزرگ و کوچک عدم امکان محدود کردن کاوش از طریق از طریق زبان ‏دارای پایگاه اطلاعاتی کوچکی است ‏رویکرد کاملا تجاری نسبت به برسی و گنجاندن سایتها در پایگاه خود ‎

صفحه 25:
موتور کاوش ‎Google‏ موتور کاوش 600916 یکی از جدید ترین ابزارهای کاوش وب است که در سپتامبر 1999 در دسترس عموم قرار گرفت . با اینکه 6009۱6 به تور نسبی بسیار زود به عرصه رقابت ابزارهای کاوش اینترنت گام نهاد. ولی به سرعت در میان مردم شناخته شد. این موتور کاوش , مبتکر نظامی منحصر به فرد یعنی تجزیه و تحلیل پیوندهای فرا متنی برای رتبه بندی نتایج کاوش است که تحت عنوان ۱1۷ ۵۷ از آن نام برده ميشود. ذخیره تصوير از صفحات پا سایتهای نمایه شده در پایگاه 6009۱6 تحت عنوان 26۳60 با کاربران امکان میدهد که صفحات یا سایتهای وب را در همان زمانی که توسط روبات آن شناسایی و نمایه شده اند , مشاهده کنند. 6۵00916 اخیرا در رقابتی فشرده با موتور کاوش 563۲۳60 ۴۵5 , توانست عنوان بزرگترین موتور کاوش منفرد در محیط وب را به خود اختصاص دهد. به دلیل واسط جستجوی ساده و بدون گرافیک و نیز استفاده از برنامه بازیابی اطلاعات مناسب , این موتور کاوش از سرعت بازیابی بالایی برخوردار است. حجم پایگاه اطلاعاتی: 6 ب زرگترینو جامع ریپ ایگاه اطلاعاتورا میان‌لبزارهایک اوش‌منفرد در اختیار دارد , به طوری که مدعیاستتا اواخر آبان‌ماه 1381 بیشاز سه میلیارد صفحه وبوا در پایگاه خود نمایه کرده اسنوشد حجم پایگاه اطلاعانه |6009 بسیاز سزیع بوده اس طوری‌که در مدسومانیک وتاه بسه عنوازی ز رگترین موتور کاوش‌وبمطرح شد.

صفحه 26:
قابلیتهای جستجوی اطلاعات : 60096 از قابلیتها‌چستجوین سبتا ضعیفو محدودی رخوردار اسنکه در ولقع جامعینهایگاه اطلاعاتی‌آن‌را تحنشعاع قرار داده است‌لینموتور کاوش, فقط عملگر 08 را قبول‌میکند و استفاده از دیگر عملگرها شامل۸۱80,۱10۲ پرلنتز كوتاه سازى نزديكويابىيه صورتهرج عملكرها ميانكليد واه ها در آنامكان پذیر نیستمکاناستفاده از عملگرهایریاضی+ و - در 600916 وجود دارد. ولعبا وجود لینن_میتولن‌از طریق ی رلنتز, جستجوعت رکیی‌انجام داد. لین‌موتور کاوش‌لمکان جستجویانولع مختلفیاز قایلهاین‌ظیر ۴0۴ و 0۴666 ۷۲۵50۲۲ را ارلئه می‌دهد کنه:ت_قریبا در فیان‌موتون‌هایک امش متحضر به اف رد انست راهتجاموضوعی عاو600 از پایگاه 0۱۳66۵۳۷ 006۳ استفاده میکند. در اوایل اردیبهشت ماه 1381 اين موتورهای کاوش, واسط جستجوی فارسی خود را در دسترس قرار داد که از طریق گزینه ۳۵6۱5 6ودنا09ه۱ یا آدرس 2 میتوان آن را فعال کرد. 6009۱6 جز زبان فارسی, امکان تغیبر واسط جستجوی انگلیسی به 80 زبان دیگر را ارئه میکند و تحول بزرگی در طراحی ابزارهای کاوش چند زبان محسوب میشود. نقاط قوت: بزرگترین ابزار کاوش منفرد از لحاظ حجم پایگاه اطلاعاتی معیار رتبه بندی سایتها بر اساس تعداد صفحات پیوند داده شده امکان مشاهده سایتهای بازیابی شده در زمان نمایه شدن

صفحه 27:
امکان جستجوی مختلف فایل بویژه فایلهای ‎Microsoft office‏ امکان ترجمه صفحات وب به 12 زبان مختلف دارای برنامه غلط یاب خود کار برای تصحیح املاء کلمات انگلیسی امکان تغییر واسط جستجو به 81 زبان مختلف از جمله فارسی دارای واسط چستجوی ساده و بدون تبلیغات اشرعت بالاتبازیانی اطلاعات قابلیت جستجوی تصویر و اخبار جهان امکان دسترسی به صفحات مشابه از طریق گزینه ۴۵965 ‎Similar‏ نقاط ضعف: امکانات نسبتا محدود برای جستجوهای پیشرفته از طریق عملگرهای بول عدم امكان جستجو از طریق عملگر نزدیک یابی تنها نیمی از صفحات وب در پایگاه اطلاعاتی آن به صورت تمام متن نمایه شده اند . پیش گزیده کاوش: 6 به طور خودکار, عملگر ۸۱۱0 را میان‌کلید واه های‌جستجو اجرا میکند

صفحه 28:
عملگرهای بول و ریاضی: 096 به طور خودکار, كليد واه ها را از طريقعملكر 81/0 تركيبميكند. به عبارتفيكر. نبايد عملكر 81000 را به كار برد. عملكّر 08 را بايد با حروفيزركق به کار برد. براعاجرای‌عملگر ۱۱0۲ باید از علامتمنفی(-) استفاده کرد. از عملگر رباضیمثببل+) میتوانبه جای۸(!0 استفاده کرد. جستجوی عبارتی و نزدیک یابی: 600016 جستجووعبارتىرا از طريققرار دادزعبارتها كليد وازّه هاوجستجو ميان علامتكيومه (" ") مورد حمايتقرار ميدهد. لما نميتواناز عملكر نزديكيابى استفاده کرد. کوتاه سازی: ‎qx Google‏ شکل‌از عملگرهایکوتاه سازی حتیريشه اصلیک لماتوا پوشش حساسیت نسبت به جستجوی کلید واژه ها با حروف بزرگ : اين موتورهای کاوش نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک, حساس ‎

صفحه 29:
فیلد های قابل فیلدهایی که از ‎tel ca‏ میتوان به جستجوی اطلاعات در 6ا6009 پرداخت, عبارتند از: با ای عبارت يا کلید واژه در عنوان سایت۱00[]6: ‎intitle:Iranian Newspaper:aile‏ بازیابی کلید واژه در نشانی دسترسی صفحات وب ‎tinurl‏ ‎inurl:amirkabir:sile‏ ‏بازیابی صفحات وب پیوند داده شده به یک سایت مشخص ۱:۳: ‎link:www.mashhadmit.ir: isle‏ جستجوی کلید واژه ها در یک سایت شخصی مشخص :56 ‎site:www.cnn.com: aisle‏ بازیابی صفحات مشابه از یک سایت ‎related ols‏ ‎related:www.unesco.org: aisle‏ بازیابی داده ها در قالب پیوند فرامتنی۵1۱10۵۴06۳60۲: انند: ‎allinanchor:free journals‏

صفحه 30:
محدود کننده ها (زبان و تاریخ) 6 لمکان‌محدود کردن‌ف رلیند جستجویاطلاعانوا از طریق35 زبان‌مختلفارلثه یدهد. علاوه بر لین امکان‌محدود کردن‌تاريخ لنتشار صفحاناز طریق فهرست لنتخاباز سه ماه تا الب یش بینی‌شده است‌در لین‌میان قابلیتوبه منظور محدود کردرتاریخ لنتشار منابع میان‌دو طیف زمانیمشخصپ یشب ینون شده است شیوه رتبه بندی و مرتب سازی: ‎Google‏ از طریقت جزیه و تحلیلپ یوندهایگنجانده در سایتهاعمهم به رتبه بندعاطلاعانب ازیابیشده می‌پردازد. ‏اين قابليت كه 00۵۷۱8۲10۷ ۱۱0۲ نام دارد. مبتنی بر تعداد پیوندهای فرامتنی یا به تعبیری:دنگز: استتادها به صنفحههات با سایتهای وب است:به این ترتیب اگز به یگ سایت, تعداد بیشتری از صفحات یا سایتهای وب استناد کرده باشند, احتمالا از اهمیت پیشتری برخوردار خواهد بود و در رتبه بندی نتایج کاوش رتبه بالاتری را بدست می آورد. ‏نمایش اطلاعات: ‏96 عنوان ن شانی‌دسترسی حجم فایل مدنومان‌ک اوشو همچنیت عداد نتایج بازیابیشده را نشان‌میدهد. ‏اين موتور کاوش به صورت پیش گزیده 10 مدخل را در هر صفحه نمایش میدهد اما امکان نمایش 20 تا 100 مدخل ابتدایی بازیابی شده را مشاهده کرد. امکان ‎gle‏ ‏گیری از بازیابی صفحات یا سایت های نا مناسب و غیر اخلاقی در جستجوی پیشرفته از طریق گزینه 568۲6 5276 وجود دارد . ‎ ‎ ‎

صفحه 31:
عناصر صفحات نتایج گوگل ۸ 8 6 [eb ies ‏هه ص‎ Googl le a a aa may | | ‏سس سس گس سس‎ i Web ‏تا‎ ‎Fr mip sca a te os News et fo googie ۳3 eth timo H wr tn Sst Dy 7 Goa” Soven 488 Te لادوم مد اط اساسا سام وم موس و وس ‎(oats‏

صفحه 32:
۸.جستجو پیشرفته شمازرا بسمبمتفحه آوکنه تما زا بسه,محدو دا رین‌چستجواقتامردسییتازو لترتكک میکند. 8.مشخصانو مزیتها (۴۲۵۲۵۲۵۴6۵5) لینکها به صفحه اعکه شما را قادر میسازد تا ‎gruizslagasl‏ ‎(preferences)‏ را مرتبکنیه شامل‌تعداد نمایش‌نتایج در هر صفحه, زبان لینترفیس و ‎C.Language Toolscuwhsialre grim> sib 9 j| oslaiw!‏ ‎Tools for setting language preferences for pages to be searched,‏ ‎sriwzslasilainl,.interface language and translation of results. D‏ شما را به اطلاعاتوکه به شما کمك‌میکند تا جستجوی‌خود را مش ازید [ ینك‌میکند لین‌توضوع بته شتما میگوید که گ وگل‌چه:فوتها و خصوصیاتیننسبت به ماشینهای‌جستجوگر دیگرعدارد. ع.زمینه جستجو براعوارد کردنپرس‌و جوپیدر گوکل کافیستا کلماتکلیدوت شریحی‌خود را تایپکرده, سپس‌بر رویکلید نجو کلید کرده یا کلید 60۷6۲ را بزنید. ۴.دکمه جستجو: ليك‌بر روعلین‌کلید به لین‌منظور لسنکه جستجوعدیگریرا لنجام میدهید. همچنین شما میتولنید تا پرسو جوعدیگریرا با زدن‌کلید 6۳۱۲6۲ تایید کنید. 6.7305 ‎Click the tab for the kind of search you want to conduct. Choose‏ ‎from a full web search, images only, Google Groups (Usenet‏ ‎discussion archive) or the Google Directory (the web organized into‏ ‎browsable categories)‏ .

صفحه 33:
ا۲.مانع آماری لین‌خط جستجویشما را توصیفمیکند و همچنینتعداد نتایج برگردانده را نشان میدهد.|.دسته بندیها گر اصطلاحاتجستجویش ما همچنین‌در دایرکتورعوبیه چشم میخورند. لین‌دسته بندیهایپ پشنهاد شده ممکن‌اسنکه به شما در پیدا کردن‌اطلاعاتب یشتر در رلبطه با پرسو جوو‌خود کمك‌کند. بر روعلنها کليك‌کنيد تا لینکهاعدیگرعرا پیدا کنید.ل عنوان‌صفحه آولین‌خطی نواننتيجه نشازداده ميشود, عنوان‌ص یدا شده است بعضروقتها ب-جای‌عنولن الا (آدرس) ن‌شان‌داده ميشود. که لینبه معنیاسنکه صفحه بيدا شده عنولنیندارد. یا گوگلتمام محتویاتصفحه را به طور کامل فهرستکرده است؟.متن‌زیر عنوان لینمتن‌منتخبیاز صفحه نتیجه برگردانده شده از موضوع پرس‌و جو شما است لینموضوعاتب رگزیده شه و لنتخابشده به شما لین‌لمکانرا میدهد تا زمینه لی از موضوعاتکه در صفحه هستند قبلاز لینکه ب رروعانک ليك‌کنید ببیتید ارت وضیحات اگر پرس‌و جوعجستجو شما در دایرکتورعوبف هرستشده بود, توضیحاتمولف نیز نشان‌داده میشود./۲.دسته بندی لگر سایتیتوسط پرسو جو جستجو ی شما که در دلیرکتوووبف هرسنشده بود پیدا شد. دسته بندعنن یز در زیر آن‌مشخص‌ميشود. ‎N.URL‏ نتيجه لینآدرس‌نتیجه یافته شده » میسآشد ۰ آندازه ماه انداز ب خش‌متن‌صفحه پیدا شده لا

صفحه 34:
‎cache did sg» LIS‏ شده شما را قادر میسازد تا محتویات صفحه را به عنوان وقتی که ما آنرا ضمیمه کرده ایم ببینید. اگر به هر دلیلی, لينك نتیجه اصلی شما را به صفحه کنونی نبرد, شما میتوانید آن صفحه را از 26۳6 ما بازیافت کنید تا اطلاعاتی که میخواهید را بیبااید. در نسخه 866 شده, موضوع جستجوی شما برجسته است.).صفحات مشابه ‏وقتی شما لينك صفحات مشابه را كليك میکنید. گوگل به طور خودکار صفحات مشابهن:را که دز اینتزتت موجودند و عبل جستجوی آنها همین:تتیجه زا بدست. میاورند را کشف میکند. 8.نتیجه برجسته ‏وقتی که گوگل چند نتیجه را از يك وب سایت پیدا میکند. بیشترین نتیجه ای که در ‎Jol‏ قرار میگیرد مناسبترین نتیجه نسبت به موضوع شما است. کالا865 5.10۲6 ‎If there are more than two results from the same site, the remaining‏ ‎.results can be accessed by clicking on "More results from..." link‏ ‎

صفحه 35:
نورهای جستجوء ‎hitp://uk.altavista.com‏ گر ‎Ping‏ قابلیت جستجوي فارسي” ‎auyLSsorimaublashls | http://www.yahoo.com‏ ‎ http://www.google.com‏ | دارای‌قابلیتجستجويفارسي ‎http://www.search.com‏ | دارای‌قابلینچستجويف ارسي ‎cy Ldsorimanblasiyl | http://www.metacrawler.com‏ 0 | دارای‌قابلیتجستجويف ارسي ‎http://www.ask.com‏ ‎http://www.lycos.com‏ ‎www.entireweb.com‏ ‎http://www.exactseek.com‏ ‎http://www.gigablast.com‏ ‎http://www.goclick.com‏ http://www.inktomi.com search.jayde.com

صفحه 36:
http://www.nationaldirectory.com search.netscape.com http://www.dogpile.co.uk http://www.northernlight.com http://www.mirago.co.uk http://www.turbo10.com http://www.webcrawler.com http://infoseek.go.com http://www.about.com http://www.mama.com http://www.excite.com http://search.msn.com

به نام خدا دانشکده فنی منتظری مشهد 1387.03.13 اطالع یابی در اینترنت ظهور اینترنت و سپس رشد و گسترش روز افزون ( شبکه جهانی وب) فهرستها و چالشهای نوینی را در فرایند اطالع یابی پدید آورد .امکان جستجو و دسترسی به حجم زیادی از اطالعات از طریق اینترنت،فعالیت های آموزشی ،تحقیقاتی ،تجاری و ...را تحت تاثیر خود قرار داده است.مشکل اصلی فرایند اطالع یابی در اینترنت بازیابی حجم کمی از اطالعات و منابع اطالعاتی نیست ،بلکه مشکل جدیدی تحت عنوان (بازیابی بیش از حد اطالعات) پدید آمده است .در گذشته کاربران نیاز کمتری به فراگیری مهارتهای جستجو داشتند و اغلب از متخصصان اطالع رسانی برای دسترسی به اطالعات کمک می گرفتند ،اما امروزه باید بدون حضور یک واسط انسانی و داشتن دانش کافی درباره اصول و مهارتهای جستجو و بازیابی اطالعات به کاوش در اینترنت و فراگیری اصول و مهارتهای اطالع یابی برای جستجو گران مهم و حیاتی شد. اطالع یابی ،مجموعه مهارتهای مورد نیاز برای شناسایی،دسترسی و جستجوی اطالعات است . چرا باید در شبکه جهانی وب به جستجوی اطالعات پرداخت .1منحصر بفرد بودن :برخی از منابع اطالعاتی در شبکه جهانی وب نمونه چاپی یا الکترونیکی( بر روی دیسک فشرده یا شبکه های پیوسته )ندارد .پایگاه اطالعاتی مقاالت تمام متن find articlesکه حاوی متن کامل هزاران مقاله است تنها از طریق شبکه جهانی وب قابل دسترس است و نسخه چاپی یا الکترونیکی ندارد. بسیاری از منابع مرجع مانند فرهنگها راهنماها و سرگذشتنامه ها منحصرا از طریق محیط وب در دسترس قرار می دهند . .2روز آمد بودن :یکی از ویژگیهای مهم شبکه جهانی وب نسبت به رسانه های چاپی انعطاف پذیری بیشتر آن برای روز آمد سازی اطالعات در زمان کوتاهتر است. امروزه اطالعات بسیاری از پایگاههای اطالعاتی در وب نظیر (ERIC,(www.ncbi,nlm.nih.gov/pubmed))http://askeric.org/eric MEDLINEو پروانه های ثبت اختراع امریکا ( )www. Uspto.govهر هفته به روز می شو ند. .3رایگان بودن :برخی از منابع اطالعاتی در شبکه وب رایگان هستند و همین موضوع انگیزه ای قوی برای جستجوی اطالعات در این محیط به وجود آورده است. مثال از طریق ) onelook dicionaries (www.onelook.comمیتوان به طور رایگان در بیش از 800فرهنگ پیوسته رایگان (بیش از 8/4میلیون واژه)به جستجو پرداخت یا از طریق سایت ) national academic press(www.nap.eduمتن کامل بیش از 2500کتاب معتبر علمی و تخصصی را به طور پیوسته مطالعه کرد. .4سهولت جستجو و بازیابی اطالعات :سهولت جستجو و باز یابی اطالعات از طریق کلید واژه های مورد نظر را در کادر جستجو وارد کرد و فرایند بازیابی اطالعات را در پیش گرفت. در بسیاری از موارد جویندگان اطالعات ترجیح می دهند به جای مراجعه به کتابخانه ها و مراکز اطالع رسانی از طریق کامپیوتر شخصی خود به جستجوی اطالعات مورد نظر بپردازند زیرا جستجوی کلید واژه ای یا مرور صفحات وب بسیار آسانتر از شیوه های سنتی دسترسی به اطالعات است .سهولت انجام جستجو (نه بازیابی اطالعات مورد نظر )در محیط گرافیکی وب حتی بر رفتار اطالع یابی دانش آموزان نیز تاثیر گذاشته است به طوری که بسیاری از دانش آموزان آمریکایی جستجوی کلید واژه ای در وب را به جستجو در برگه دان کتابخانه ها ترجیح میدهند و عقیده دارند که استفاده از این محیط برای انجام تکالیف درسی و تحقیق به مراتب آسانتر است . .5دسترسی به اطالعات چند رسانه ای :یکی از مهمترین قابلیتهای شبکه جهانی وب ،امکان جستجو و بازیابی حجم بسیار زیادی از اطالعات چند رسانه ای شامل صوت،تصویر و ویدیو است. سیر تحول تاریخی ابزارهای کاوش شبکه جهانی اینترنت در اواخر دهه 1960پا به عرصه ظهور گذاشت ،اما تا سال 1990ابزارهایی برای کاوش اطالعات موجود در آن وجود نداشت .با مروری اجمالی بر تاریخچه ابزارهای کاوش اینترنت میتوان دریافت که تقریبا کلیه پیشرفتها در این زمینه توسط دانشجویان و طرحهای پژوهشی آنها صورت گرفته است. در سال 1990اولین ابزار کاوش اینترنت توسط آالن ِامتیچ ( )Alan Emtageدر دانشگاه MacGil Universityتحت عنوان Archieتوسعه یافت .این ابزار کاوش تنها میتوانست فایلهای اینترنتی ،نه متن و اسناد موجود در اینترنت را بازیابی کند. در سال 1993در دانشگاه نوادا برای بازیابی اسناد و متون در سرورهای گوفر نظامی مشابه آرکی طراحی شد که ورونیکا نام داشت .در واقع ورونیکا برای اولین بار امکان جستجو و باز یابی متن و اسناد ساده (بدون تصویر یا پیوندهای فرامتنی ) را در اینترنت فراهم کرد . آرکی و ورونیکا پدر و مادر تمام ابزارهای کاوش امروزی به شمار می آیند .بعدها دو ابزار کاوش برای جستجوی اطالعات در محیط وب توسعه یافتند که عبارت بودند از آلی وب و ورالد واید وب واندرر .ورالد واید وب واندرر که توسط ماتؤگری در دانشگاه MITتوسعه یافت از روبات ها به تعبیر دیگر برنامه های کامپیوتری برای جستجو و نمایه سازی صفحات وب استفاده می کرد .به این ترتیب اولین موتور کاوش پا به ظهور گذاشت و پایگاه موتور کاوش تحت عنوان وندکس شکل گرفت . در اوایل سال 1994دو دانشجوی دوره دکتری مهندسی برق دانشگاه استانفورد به نامهای دیوید فیلو و جری یانگ فهرستی از سایتهای وب مورد عالقه و منتخب را تهیه و در محیط وب ارائه کردند .سپس به منظور جستجو در پایگاه اطالعاتی گرد آوری شده از سایتها ،نرم افزار کاوشی به آن افزودند و ان را ()www.yahoo.com افزایش !yahooنام نهادند .پس از مدتی ،حجم اطالعات موجود در !yahoo یافت و روزانه هزاران نفر به آن مراجعه کردند. در دسامبر Alta vista )www.altavista.com( 1995به عنوان یکی از شناخته شده ترین موتور های کاوش ظهور پیدا کرد و به دلیل ویژگیها و نوآوریهایی که در آن پیش بینی شده بود ،به سرعت به عنوان یکی از بهترین ابزارهای کاوش اینترنت مطرح شد; به طوری که توانایی انجام روزانه میلیونها جستجو را بدون کاهش سرعت بازیابی اطالعات به همراه داشت Alta vista.اولین موتور کاوشی بود که از زبان طبیعی ( مانند جستجوی جمله آب و هوای تهران چطور است ؟) و عملگرهای بول برای باز یابی اطالعات در محیط وب استفاده کرد . در ماه می Hot Bot )www.hotbot.com( 1996به عنوان یکی دیگر از ابزارهای کاوش مهم ابداع شد که روبات آن قادر بود روزانه حدود 10میلیون صفحه در محیط وب را در پایگاه خود نمایه کند .در سال 1995اولین ابر موتور کاوش توسط اریک سلبرگ تحت عنوان Metacrawler( (www.metacrawler.comظهور پیدا کرد . این ابر موتور کاوش می توانست در پایگاه شش موتور کاوش و راهنمای موضوعی به طور هم زمان به جستجو بپردازد . در اواخر سال 1997یکی از بزرگترین و مهمترین ابزارهای کاوش امروزی یعنی موتور کاوش ) www.google.com) Googleاز طریق طرح تحقیقاتی دانشگاه استانفورد ظهور یافت . Googleتالش کرد که در نظام رتبه بندی نتایج کاوش خود مبتنی بر میزان ارتباط آنها با کلید واژه های جستجو،تحول اساسی به وجود آورد که از طریق استفاده از معیار میزان استناد به یک سایت مشخص توسط سایت های دیگر صورت می گیرد. ابزارهای کاوش اینترنت چیست؟ ابزارهای کاوش اینترنت پایگاههای اطالعاتی جستجو یا مرور هستند که با استفاده از آنها میتوان به «بخشی » از اطالعات موجود در اینترنت دست یافت .این ابزارها به دو شیوه کاربران را به سوی اطالعات مورد نظر راهنمایی می کنند: جستجوی کلید واژه ها مرور و انتخاب پیوندهای فرامتنی کاربران را به سوی اطالعات مورد نظر ،هدایت می کنند . ابزارهای کاوش اینترنت را میتوان به دو نوع اصلی تقسیم بندی کرد: راهنمای موضوعی موتورهای کاوش .1راهنماهای موضوعی : راهنمای موضوعی وب ،پایگاههایی هستند که اطالعات صفحات یا سایتهای وب منتخب را توسط نیروی انسانی در پایگاه خود نمایه می کنند. .2موتورهای کاوش : موتورهای کاوش ،پایگاههای اطالعاتی قابل جستجویی هستند که از طریق برنامه های کامپیوتری به شناسایی و نمایه سازی خودکار صفحات وب می پردازند . موتورهای کاوش بر خالف راهنماهای موضوعی ،برنامه های خودکاری هستند که هیچ گونه وابستگی به نیروی انسانی ندارند .به تعبیر دیگر ،فرایند شناسایی،انتخاب و نمایه سازی اطالعات وب توسط برنامه های کامپیوتری انجام می شود . موتور جستجو چگونه کار می کند؟ وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، كاربران در واقع نتیجه كار بخش های متفاوت موتور جستجوگر را می بینند .موتور جستجوگر قبال" پایگاه داده اش را آماده كرده است و این گونه نیست كه درست در همان لحظه جستجو ،تمام وب را بگردد .بسیاری از خود می پرسند كه چگونه ممکن است گوگل در كمتر از یك ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه كند؟ گوگل و هیچ موتور جستجوگر دیگری توانایی انجام این كار را ندارند .همه آنها در زمان پاسخ گویی به جستجوهای كاربران ،تنها در پایگاه داده ای كه در اختیار دارند به جستجو می پردازند و نه در وب! موتور جستجوگر به كمك بخش های متفاوت خود، اطالعات مورد نیاز را قبال" جمع آوری ،تجزیه و تحلیل می كند ،آنرا در پایگاه داده اش ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می گردد .بخش های مجزای یك موتور جستجوگر عبارتند از: Spiderیا عنکبوت Crawlerیا خزنده Indexerیا بایگانی کننده Databaseیا پایگاه داده Rankerیا سیستم رتبه بندی الف -Spiderعنکبوت اسپایدر یا روبوت ( ، )Robotنرم افزاری است كه كار جمع آوری اطالعات مورد نیاز یك موتور جستجوگر را بر عهده دارد .اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند ،لینکها را دنبال می کند ،اطالعات مورد نیاز را جمع آوری می كند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد .كار یك اسپایدر ،بسیار شبیه كار كاربران وب است .همانطور كه كاربران ،صفحات مختلف را بازدید می كنند ،اسپایدر هم درست این كار را انجام می دهد با این تفاوت كه اسپایدر كدهای HTMLصفحات را می بیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را index.html .صفحه ای است كه كاربران آنرا به صورت شكل ( )1می بینند: شكل - 1نمونه ای از صفحات وب كه توسط مرورگرها نشان داده می شود. شكل - 1نمونه ای از صفحات وب كه توسط مرورگرها نشان داده می شود. اما یک اسپایدر آنرا چگونه می بیند؟ برای این كه شما هم بتوانید دنیای وب را از دیدگاه یك اسپایدر ببینید ،كافی است كه كدهای HTMLصفحات را مشاهده کنید .برای این كار در مرورگر مورد استفاده خود، مسیر نشان داده شده در شكل ( )2دنبال کنید. با انجام این کار فایل متنی شكل ( )3به شما نشان داده می شود: شكل -3كدهای HTMLسازنده یك صفحه وب اسپایدر ،به هنگام مشاهده صفحات ،بر روی سرورها رد پا برجای می گذارد .شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید ،می توانید مشخص كنید كه اسپایدر كدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است .یکی از فعالیتهای اصلی که در SEMانجام می شود تحلیل آمار همین دید و بازدیدها است. اسپایدرها كاربردهای دیگری نیز دارند ،به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می كنند و فقط به بررسی فعال بودن لینك های آنها می پردازند و یا به دنبال آدرس ایمیل ( )Emailمی گردند. ب( Crawler -خزنده) كراولر ،نرم افزاری است كه به عنوان یك فرمانده برای اسپایدر عمل می كند .آن مشخص می كند که اسپایدر كدام صفحات را مورد بازدید قرار دهد .در واقع کراولر تصمیم می گیرد كه كدام یك از لینك های صفحه ای كه اسپایدر در حال حاضر در آن قرار دارد ،دنبال شود .ممكن است همه آنها را دنبال كند ،بعضی ها را دنبال كند و یا هیچ كدام را دنبال نكند. کراولر ،ممكن است قبال" برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه ،در اختیار اسپایدر قرار دهد تا از آنها دیدن کند .دنبال كردن لینك های یک صفحه به این بستگی دارد كه موتور جستجوگر چه حجمی از اطالعات یک سایت را می تواند (می خواهد) در پایگاه داده اش ذخیره كند .همچنین ممكن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد. شما به عنوان دارنده سایت ،همان طور كه دوست دارید موتورهای جستجوگر اطالعات سایت شما را با خود ببرند ،می توانید آنها را از بعضی صفحات سایت تان دور كنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید .موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می کند و از حقوق دسترسی خود اطالع می یابد .تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتكل Robotsانجام می شود .به عمل کراولر ،خزش ( )Crawlingمی گویند . ج( Indexer -بایگانی كننده) تمام اطالعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد .در این بخش اطالعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند .تجزیه و تحلیل بدین معنی است كه مشخص می شود اطالعات از كدام صفحه ارسال شده است ،چه حجمی دارد ،كلمات موجود در آن كدامند ،کلمات چندبار تكرار شده اند ،كلمات در كجای صفحه قرار دارند و . ... در حقیقت ایندکسر ،صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند .در زمان تجزیه و تحلیل اطالعات ،ایندکسر برای كاهش حجم داده ها از بعضی كلمات كه بسیار رایج هستند صرفنظر می کند .كلماتی نظیر a ، an ، the ، www ، isو . ...از این گونه كلمات هستند. د ( DataBase -پایگاه داده) تمام داده های تجزیه و تحلیل شده در ایندکسر ،به پایگاه داده ارسال می گردد .در این بخش داده ها گروه بندی ،كدگذاری و ذخیره می شود .همچنین داده ها قبل از آنكه ذخیره شوند ،طبق تکنیکهای خاصی فشرده می شوند تا حجم كمی از پایگاه داده را اشغال كنند .یك موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطالعات قدیمی را هم به روز رسانی نماید .بزرگی و به روز بودن پایگاه داده یك موتور جستجوگر برای آن امتیاز محسوب می گردد .یكی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است. و( Ranker -سیستم رتبه بندی) بعد از آنكه تمام مراحل قبل انجام شد ،موتور جستجوگر آماده پاسخ گویی به سواالت كاربران است .كاربران چند كلمه را در جعبه جستجوی ( )Search Boxآن وارد می كنند و سپس با فشردن Enterمنتظر پــاسخ می مانند .برای پاسخگویی به درخواست کاربر ،ابتدا تمام صفحات موجود در پایگاه داده كه به موضوع جستجو شده ،مرتبط هستند ،مشخص می شوند .پس از آن سیستم رتبه بندی وارد عمل شده ،آنها را از بیشترین ارتباط تا كمترین ارتباط مرتب می كند و به عنوان نتایج جستجو به كاربر نمایش می دهد. حتی اگر موتور جستجوگر بهترین و كامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه كند ،یك موتور جستجوگر ضعیف خواهد بود .در حقیقت سیستم رتبه بندی قلب تپنده یك موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد .سیستم رتبه بندی برای پاسخ گویی به سواالت كاربران ،پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد. حرفه ای های دنیای SEMبه طور خالصه از آن به ( Algoالگوریتم) یاد می كنند. الگوریتم ،مجموعه ای از دستورالعمل ها است كه موتور جستجوگر با اعمال آنها بر پارامترهای صفحات موجود در پایگاه داده اش ،تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب كند .در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد. می توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده ،موتور جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می باشد: کراولر بایگانی سیستم رتبه بندی تذکر -برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به میان می آید ،مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور جستجوگر وارد می شود. راهنمای موضوعی )Open Directory (www.dmoz.org DMOZبه عنوان یکی از مهمترین و جامع ترین راهنماهای موضوعی وب در ژوئن 1998تحت عنوان NewHooدر دسترس قرار گرفت .این ابزار کاوش توسط ویراستاران داوطلب اداره میشود و آنها در سراسر دنیا وظیفه بررسی و وارد کردن سایتهای معرفی شده را بر عهده دارند .طبق آمار ارائه شده توسط این سایت تا آبان ماه 1381حدود 53هزار ویراستار داوطلب با سایت همکاری داشتند .توصیف ارائه شده برای هر سایت از کیفیت و محتوای خوبی برخوردار است .بعالوه ،این راهنمای موضوعی هیچ هدف تجاری و انتفاعی ندارد و همگان میتوانند با آن به عنوان ویراستار موضوعی همکاری کنند یا سایتهای مرتبط و با کیفیت را به بخشهای موضوعی مختلف آن معرفی نمایند .برخی از مهمترین ابزارهای کاوش نظیر Google‌، HotBotو lycosدر بخش راهنمای موضوعی خود از پایگاه Open Directoryاستفاده میکند. نقاط قوت: بزرگترین راهنمای موضوعی که توسط انسان اداره میشود غیر انتفاعی بودن و غیر تجاری بودن سایت دارای ساختار سلسله مراتب موضوعی قوی و نسبتا جامع سیاست نمایه سازی برای گنجاندن سایتهای با کیفیت و معتبر دارای امکانات جستجوی مناسب نسبت به سایر راهنماهای موضوعی وب امکان انجام جستجو در یک تقسیم موضوعی مشخص و خاص امکان جستجو از طریق عملگرهای بول و ریاضی نقاط ضعف: در موارد معدودی ،کیفیت سایتهای نمایه شده ،یک دست و هماهنگ نیست نسبت به موتورهای کاوش پایگاه اطالعاتی کوچکی دارد عدم حساسیت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک عدم امکان استفاده از عملگر نزدیک یابی عدم امکان محدود کردن کاوش از طریق زبان و تاریخ عدم امکان تعیین مدخل ها برای نمایش در هر صفحه موتور کاوش )MSN Search (Http://search.msn.com MSN Searchموتور کاوشی است که توسط شرکت مایکروسافت راه اندازی شد. این موتور کاوش برای بازیابی اطالعات از پایگاه inktomو راهنمای موضوعی Look Smartاستفاده میکند در بخش جستجوی ساده آن ،امکانات محدودی قابل دسترس است .اما در بخش جستجوی پیشرفته ،قابلیتهای نسبتا مناسبی پیشبینی شده است. بر آورد دقیقی از حجم پایگاه اطالعاتی آن وجود ندارد .این موتور کاوش از لحاظ جلو گیری از باز یابی سایتهای غیر اخالقی بسیار مطمئن است و به صورت خود کار از بازیابی چنین سایتهایی جلوگیری میکند. نقاط قوت: امکان جستجو از طریق قابلیت Page Depth Limit دارای برنامه غلط یاب خود کار کلمات انگلیسی امکان رتبه بندی نتایج بر اساس تاریخ ،عنوان و عمق سایت امکان جستجوی فرمت های مختلف فایل پیشرفته نقاط ضعف: عدم استفاده از عملگرهای بول در جستجوی ساده بازیابی نتایج متفاوت از طریق عملگر به کارگیری عملگر کوتاه سازی عدم امکان استفاده از عملگر نزدیک یابی عدم امکان ترجمه سایتها به زبانهای مختلف عدم امکان محدود کردن تاریخ انتشار صفحات وب موتور کاوش )HotBot (www.hotbot.com HotBotدر ماه می 1996ظهور پیدا کرد .این موتور کاوش دارای امکانات و قابلیتهای جستجوی پیشرفته و مناسبی به ویژه در بخش جستجوی ساده است .در واقع ،بسیاری از قابلیتهای جستجوی ساده ،طراحی شده و در دسترس قرار گرفته است .راهنمای موضوعی HotBotاز پایگاه Open Directoryاستفاده میکند .این موتور کاوش از دو پایگاه lnktomiو Direct Hitبرای بازیابی نتایج اصلی بهره میگیرد .طبق اخرین آمار مستند برآورده میشود که این موتور کاوش بیش از 500 میلیون صفحه وب را در پایگاه خود نمایه کرده است. نقاط قوت: امکانات جستجوی پیشرفته در بخش جستجوی ساده امکان جستجو از طریق قابلیت ( Page Depth Limitکاوش مبتنی بر عمق صفحات وب) امکان جستجوی فرمت های مختلف فایل در بخشهای جستجوی ساده و پیشرفته نمایش اطالعات به صورت مفصل و مختصر امکان جستجوی نام یک شخص از طریق گزینه The Person نقاط ضعف: جستجوی صفحات پیوند داده شده Link Searchدقیق نیست. دارای پایگاه اطالعاتی نسبتا کوچک مه به آهستگی رشد میکند برخی از قابلیتهای کاوش در بخش جستجوی پیشرفته همیشه درست کار نمیکند فاقد عملگر نزدیک یابی است عدم امکان ترجمه سایتها به زبانهای مختلف عدم امکان جستجوی کلید واژه ها در قالب پیوند فرامتنی نداشتن برنامه غلط یاب خود کار برای تصحیح امالی کلمات انگلیسی حساس نبودن نسبت به کلید واژه ها با حروف بزرگ و کوچک عدم امکان حذف نتایج تکراری از سایتی واحد و برعکس ،دسترسی به سایتهای مشابه موتور کاوش)fast search(www. Alltheweb.com ‏Fast searchدر ماه می 1999در دسترس کاربران اینترنت قرار گرفت .این موتور کاوش با عنوان All The Webهم شناخته میشوند و نشانی دسترسی آن نیز مشابه این نام است( .)www.alltheweb.comاین موتور کاوش در اوایل مرداد ماه 1381مدعی شد با 2.1میلیارد صفحه ،از بزرگترین ابزارهای کاوش اینترنت است. قابلیتهای جستجوی اطالعات: Fast searchامکان استفاده از عملگرهای بول (بجز ،) ANDجستجوی ترکیبی و کوتاه سازی را ارائه نمیدهد و تنها میتوان از عملگرهای ریاضی +و – استفاده کرد. برای اجرای عملگرهای بول باید از بخش جستجوی پیشرفته و فهرست انتخاب استفاده کرد. نقاط قوت: یکی از بزرگترین پایگاههای اطالعاتی در میان ابزارهای کاوش سرعت بازیابی باال در میان ابزارهای کاوش‌ ،بیشترین تعداد زبان( 49زبان) را پوشش میدهد. امکان دسترسی به کلیه نتایج بازیابی شده امکان بازیابی فایلهای PDFو FTP امکان محدود کردن جستجو از طریق حجم صفحات وب براساس کیلو بایت دارای بخشهای جستجوی جدا گانه برای بازیابی اطالعات چند رسانه ای شامل صوت،تصویر و ویدئو جستجو در نشانی پروتکل اینترنت( )IP Addressکه منحصر به فرد است. نمایه سازی صفحات وب به صورت تمام متن نقاط ضعف: عدم امکان استفاده از عملگرهای بول ،کوتاه سازی و نزدیک یابی محدود بودن امکانات جستجو در فیلدهای مختلف عدم امکان ترجمه سایتهای بازیابی شده نداشتن برنامه غلط یاب خود کار برای تصحیح امالی کلمات انگلیسی حساس نبودن نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک عدم امکان حذف نتایج تکراری از سایتی واحد و برعکس ،دسترسی به سایتهای مشابه راهنمای موضوعی !Yahoo بدون شک !Yahooشناخته شده ترین ،پر مراجعه ترین و عامه پسند ترین ابزار کاوش اینترنت است .هرچند که امروزه با ظهور راهنماهای موضوعی بزرگتر و قدرتمند تری نظیر DMOZکمی از محبوبیت آن به ویژه در میان محققان و کاوشگران حرفه ای کاسته شده است !Yahoo .در اواخر سال 1994در دسترس قرار گرفت و ابتکار طراحان آن در جهت شناسایی و تقسیم بندی موضوعی سایتهای اینترنت توسط انسان باعث شد تا هم اینک روزانه دهها میلیون نفر در سراسر جهان به آن مراجع کنند .طبق آخرین آمار ،حدود 1.8میلیون سایت در پایگاه این راهنمای موضوعی نمایه شده است و بیش از 150ویراستار به کار شناسایی یا توصیف سایتهای اینترنت در آن مشغول فعالیت هستند. !Yahooیک ابزار کاوش کامال تجاری است .به طوری که سایتهای تجاری با پرداخت حدود 300دالر میتوانند نسبت به ثبت سایت خود در آن اقدام کنند .پرداخت این هزینه به معنای وارد شدن در پایگاه !Yahooنیست ،بلکه این مبلغ به عنوان هزینه برسی سایت دریافت میشود .تبلیغات و خدمات جانبی دیگر از پست الکترونیکی، چت ،بازیهای کامپیوتری و موسیقی گرفته تا وضعیت آب و هوا ،ورزش و خرید فروش اجناس و ...ماهیت اصلی !Yahooرا به عنوان یک راهنمای موضوعی سایتهای وب در جهان تا حدود زیادی تحت تاثیر قرار داده است !Yahoo .دارای امکانات جستجو و بازیابی نسبتا ضعیفی است. نقاط قوت: شناخته شده ترین و پر مراجعه ترین ابزار کاوش اینترنت دارای خدمات جانبی عامه پسند برای عموم مردم نقاط ضعف: عدم امکان استفاده از عملگرهای بول عدم استفاده از پرانتز برای انجام جستجوهای پیچیده عدم حساسیت به بازیابی کلید واژه ها با حروف بزرگ و کوچک عدم امکان محدود کردن کاوش از طریق از طریق زبان دارای پایگاه اطالعاتی کوچکی است رویکرد کامال تجاری نسبت به برسی و گنجاندن سایتها در پایگاه خود موتور کاوش Google موتور کاوش Googleیکی از جدید ترین ابزارهای کاوش وب است که در سپتامبر 1999در دسترس عموم قرار گرفت .با اینکه Googleبه تور نسبی بسیار زود به عرصه رقابت ابزارهای کاوش اینترنت گام نهاد ،ولی به سرعت در میان مردم شناخته شد .این موتور کاوش ،مبتکر نظامی منحصر به فرد یعنی تجزیه و تحلیل پیوندهای فرا متنی برای رتبه بندی نتایج کاوش است که تحت عنوان Link Popularityاز آن نام برده میشود .ذخیره تصویر از صفحات یا سایتهای نمایه شده در پایگاه Googleتحت عنوان cachedبا کاربران امکان میدهد که صفحات یا سایتهای وب را در همان زمانی که توسط روبات آن شناسایی و نمایه شده اند ، مشاهده کنند Google .اخیرا در رقابتی فشرده با موتور کاوش ، Fast Search توانست عنوان بزرگترین موتور کاوش منفرد در محیط وب را به خود اختصاص دهد. به دلیل واسط جستجوی ساده و بدون گرافیک و نیز استفاده از برنامه بازیابی اطالعات مناسب ،این موتور کاوش از سرعت بازیابی باالیی برخوردار است. حجم پایگاه اطالعاتی: Googleبزرگترین و جامع ترین پایگاه اطالعاتی را میان ابزارهای کاوش منفرد در اختیار دارد ،به طوری که مدعی است تا اواخر آبان ماه 1381بیش از سه میلیارد صفحه وب را در پایگاه خود نمایه کرده است.رشد حجم پایگاه اطالعات Google بسیار سریع بوده است به طوری که در مدت زمانی کوتاه به عنوان بزرگترین موتور کاوش وب مطرح شد. قابلیتهای جستجوی اطالعات : Googleاز قابلیتهای جستجوی نسبتا ضعیف و محدودی برخوردار است که در واقع جامعیت پایگاه اطالعاتی آن را تحت شعاع قرار داده است .این موتور کاوش ،فقط عملگر ORرا قبول میکند و استفاده از دیگر عملگرها شامل AND,NOTپرانتز، کوتاه سازی ،نزدیکی یابی به صورت درج عملگرها میان کلید واژه ها در آن امکان پذیر نیست .امکان استفاده از عملگرهای ریاضی +و – در Googleوجود دارد ،ولی با وجود این نمیتوان از طریق پرانتز ،جستجوی ترکیبی انجام داد .این موتور کاوش امکان جستجوی انواع مختلفی از فایلهای نظیر PDFو Microsoft Officeرا ارائه می دهد که تقریبا در میان موتورهای کاوش ‌،منحصر به فرد است .راهنمای موضوعی Googleاز پایگاه Open Directoryاستفاده میکند. در اوایل اردیبهشت ماه 1381این موتورهای کاوش ،واسط جستجوی فارسی خود را ‏WW.Googl در دسترس قرار داد که از طریق گزینه Language Toolsیا آدرس Googleجز زبان فارسی ،امکان تغییر واسط ‏e.com/fa میتوان آن را فعال کرد. جستجوی انگلیسی به 80زبان دیگر را ارئه میکند و تحول بزرگی در طراحی ابزارهای کاوش چند زبان محسوب میشود. نقاط قوت: بزرگترین ابزار کاوش منفرد از لحاظ حجم پایگاه اطالعاتی معیار رتبه بندی سایتها بر اساس تعداد صفحات پیوند داده شده امکان مشاهده سایتهای بازیابی شده در زمان نمایه شدن امکان جستجوی مختلف فایل بویژه فایلهای Microsoft office امکان ترجمه صفحات وب به 12زبان مختلف دارای برنامه غلط یاب خود کار برای تصحیح امالء کلمات انگلیسی امکان تغییر واسط جستجو به 81زبان مختلف از جمله فارسی دارای واسط جستجوی ساده و بدون تبلیغات سرعت باالی بازیابی اطالعات قابلیت جستجوی تصویر و اخبار جهان امکان دسترسی به صفحات مشابه از طریق گزینه Similar Pages نقاط ضعف: امکانات نسبتا محدود برای جستجوهای پیشرفته از طریق عملگرهای بول عدم امکان جستجو از طریق عملگر نزدیک یابی تنها نیمی از صفحات وب در پایگاه اطالعاتی آن به صورت تمام متن نمایه شده اند . پیش گزیده کاوش: Googleبه طور خودکار ،عملگر ANDرا میان کلید واژه های جستجو اجرا میکند عملگرهای بول و ریاضی: Googleبه طور خودکار ،کلید واژه ها را از طریق عملگر ANDترکیب میکند .به عبارت دیگر ،نباید عملگر ANDرا به کار برد .عملگر ORرا باید با حروف بزرگ به کار برد .برای اجرای عملگر NOTباید از عالمت منفی ( )-استفاده کرد .از عملگر ریاضی مثبت( )+میتوان به جای ANDاستفاده کرد. جستجوی عبارتی و نزدیک یابی: Googleجستجوی عبارتی را از طریق قرار دادن عبارت یا کلید واژه های جستجو میان عالمت گیومه (" ") مورد حمایت قرار میدهد .اما نمیتوان از عملگر نزدیک یابی استفاده کرد. کوتاه سازی: Googleهیچ شکل از عملگرهای کوتاه سازی ،حتی ریشه اصلی کلمات را پوشش نمیدهد. حساسیت نسبت به جستجوی کلید واژه ها با حروف بزرگ : این موتورهای کاوش نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک ،حساس نیست. فیلد های قابل جستجو: فیلدهایی که از طریق آنها میتوان به جستجوی اطالعات در Googleپرداخت ،عبارتند از: بازیابی عبارت یا کلید واژه در عنوان سایت:intitle مانندintitle:Iranian Newspaper: بازیابی کلید واژه در نشانی دسترسی صفحات وب :inurl مانندinurl:amirkabir: بازیابی صفحات وب پیوند داده شده به یک سایت مشخص :link مانندlink:www.mashhadmit.ir: جستجوی کلید واژه ها در یک سایت شخصی مشخص site: مانندsite:www.cnn.com: بازیابی صفحات مشابه از یک سایت خاص:related مانندrelated:www.unesco.org: بازیابی داده ها در قالب پیوند فرامتنی:allinanchor مانند: ‏allinanchor:free journals محدود کننده ها (زبان و تاریخ) Googleامکان محدود کردن فرایند جستجوی اطالعات را از طریق 35زبان مختلف ارائه میدهد .عالوه بر این ،امکان محدود کردن تاریخ انتشار صفحات از طریق فهرست انتخاب از سه ماه تا یک سال پیش بینی شده است .در این میان ،قابلیتی به منظور محدود کردن تاریخ انتشار منابع میان دو طیف زمانی مشخص پیش بینی نشده است. شیوه رتبه بندی و مرتب سازی: Googleاز طریق تجزیه و تحلیل پیوندهای گنجانده در سایتهای مهم به رتبه بندی اطالعات بازیابی شده می پردازد. این قابلیت که link popularityنام دارد ‌،مبتنی بر تعداد پیوندهای فرامتنی یا به تعبیری دیگر ،استناد ها به صفحه هات یا سایتهای وب است .به این ترتیب اگر به یک سایت ،تعداد بیشتری از صفحات یا سایتهای وب استناد کرده باشند ،احتماال از اهمیت بیشتری برخوردار خواهد بود و در رتبه بندی نتایج کاوش رتبه باالتری را بدست می آورد. نمایش اطالعات: Googleعنوان ،نشانی دسترسی ،حجم فایل ،مدت زمان کاوش و همچنین تعداد نتایج بازیابی شده را نشان میدهد. این موتور کاوش به صورت پیش گزیده 10مدخل را در هر صفحه نمایش میدهد اما امکان نمایش 20تا 100مدخل ابتدایی بازیابی شده را مشاهده کرد .امکان جلو گیری از بازیابی صفحات یا سایت های نا مناسب و غیر اخالقی در جستجوی پیشرفته از طریق گزینه safe searchوجود دارد . عناصر صفحات نتايج گوگل .Aجستجو پيشرفته شما را به صفحه اى كه شما را به محدود كردن جستجو قادر ميسازد لينك ميكند. .Bمشخصات و مزيتها ()Preferences لينكها به صفحه اى كه شما را قادر ميسازد تا مشخصات و مزيتهاى جستجو ( )preferencesرا مرتب كنيد ،شامل تعداد نمايش نتايج در هر صفحه ،زبان اينترفيس ،و استفاده از فيلتر جستجو مطمئن استC.Language Tools . ‏Tools for setting language preferences for pages to be searched, .interface language and translation of results. Dراهنمائی هاى جستجو شما را به اطالعاتى كه به شما كمك ميكند تا جستجوى خود را مثر تر سازيد لينك ميكند .اين موضوع به شما ميگويد كه گوگل چه تفوتها و خصوصياتى نسبت به ماشينهاى جستجوگر ديگرى دارد.E .زﻣﻳﻨﻪ جستجو براى وارد كردن پرس و جويى در گوگل ،كافيست تا كلمات كليدى تشريحى خود را تايپ كرده ،سپس بر روى كليد جستجو كليد كرده يا كليد enterرا بزنيد.F .دكمه جستجوى گوگل كليك بر روى اين كليد به اين منظور است كه جستجوى ديگرى را انجام ميدهيد. همچنين شما ميتوانيد تا پرس و جوى ديگرى را با زدن كليد enterتاييد كنيدG.Tabs. ‏Click the tab for the kind of search you want to conduct. Choose ‏from a full web search, images only, Google Groups (Usenet ‏discussion archive) or the Google Directory (the web organized into ).browsable categories .Hمانع آمارى اين خط جستجوى شما را توصيف ميكند و همچنين تعداد نتايج برگردانده را نشان ميدهد.I.دسته بنديها اگر اصطالحات جستجوى شما همچنين در دايركتورى وب به چشم ميخورند ،اين دسته بنديهاى پيشنهاد شده ممكن است كه به شما در پيدا كردن اطالعات بيشتر در رابطه با پرس و جوى خود كمك كند .بر روى آنها كليك كنيد تا لينكهاى ديگرى را پيدا كنيد.J.عنوان صفحه اولين خطى كه به عنوان نتيجه نشان داده ميشود ،عنوان صفحه پيدا شده است. بعضى وقتها بجاى عنوان( URL ،آدرس) نشان داده ميشود ،كه اين به معنى است كه صفحه پيدا شده عنوانى ندارد ،يا گوگل تمام محتويات صفحه را به طور كامل فهرست نكرده است.K.متن زير عنوان اين متن منتخبى از صفحه نتيجه برگردانده شده از موضوع پرس و جو شما است. اين موضوعات برگزيده شه و انتخاب شده به شما اين امكان را ميدهد تا زمينه اى از موضوعات كه در صفحه هستند قبل از اينكه برروى آن كليك كنيد ببينيد.L.توضيحات اگر پرس و جوى جستجو شما در دايركتورى وب فهرست شده بود ،توضيحات مولف نيز نشان داده ميشود.M.دسته بندى اگر سايتى توسط پرس و جو جستجو ى شما كه در دايركتوى وب فهرست شده بود پيدا شد ،دسته بندى آن نيز در زير آن مشخص ميشود N.URL .نتيجه اين آدرس نتيجه يافته شده می بَاشد.O.اندازه اين شماره انداز بخش متن صفحه پيدا شده است .اين براى سايتهايي كه هنوز ضميمه نشده اند موجود نميباشد.P .ذﺨﻴﺭ شده كليك برروى لينك cacheشده شما را قادر ميسازد تا محتويات صفحه را به عنوان وقتى كه ما آنرا ضميمه كرده ايم ببينيد .اگر به هر دليلى ،لينك نتيجه اصلى شما را به صفحه كنونى نبرد ،شما ميتوانيد آن صفحه را از cacheما بازيافت كنيد تا اطالعاتى كه ميخواهيد را بيباايد .در نسخه cacheشده ،موضوع جستجوى شما برجسته است.Q.صفحات مشابه وقتى شما لينك صفحات مشابه را كليك ميكنيد ،گوگل به طور خودكار صفحات مشابهى را كه در اينترنت موجودند و عمل جستجوى آنها همين نتيجه را بدست مياورند را كشف ميكند.R .نتيجه برجسته وقتى كه گوگل چند نتيجه را از يك وب سايت پيدا ميكند ،بيشترين نتيجه اى كه در اول قرار ميگيرد مناسبترين نتيجه نسبت به موضوع شما استS.More Results . ‏If there are more than two results from the same site, the remaining .results can be accessed by clicking on "More results from..." link :موتورهای جستجو | داراي قابليت جستجوي فارسيhttp://uk.altavista.com | داراي قابليت جستجوي فارسيhttp://www.yahoo.com | داراي قابليت جستجوي فارسيhttp://www.google.com | داراي قابليت جستجوي فارسيhttp://www.search.com | داراي قابليت جستجوي فارسيhttp://www.metacrawler.com | داراي قابليت جستجوي فارسيAolsearch http://www.ask.com http://www.lycos.com www.entireweb.com http://www.exactseek.com http://www.gigablast.com http://www.goclick.com http://www.hotbot.com http://www.inktomi.com search.jayde.com http://www.looksmart.com http://www.nationaldirectory.com search.netscape.com http://www.dogpile.co.uk http://www.northernlight.com http://www.mirago.co.uk http://www.turbo10.com http://www.webcrawler.com http://infoseek.go.com http://www.about.com http://www.mama.com http://www.excite.com http://search.msn.com

62,000 تومان