صفحه 1:
به نام خدا
Google
Search Engine 7
تبیه کننده:مبدی پاری
استاد راهنماءآقای طالبی
دانشکده فنی منتظری
1387.03.13
صفحه 2:
ظهور اینترنت و سپس رشد و گسترش روز افزون ( شبکه جهانی وب) فهرستها و
چالشهای نوینی را در فرایند اطلاع یابی پدید آورد. امکان جستجو و دسترسی به حجم
زیادی از اطلاعات از طریق اینترنت,فعالیت های آموزشی , تحقیقاتی, تجاری و ... را
تحت تاثیر خود قرار داده است.مشکل اصلی فرایند اطلاع یابی در اینترنت بازیابی
حچم کمی از اطلاعات و منابع اطلاعاتی نیست , بلکه مشکل جدیدی تحت عنوان
(بازیانی بیش از حد اطلاعات) ندید آمدح است: در گذشته کاربران: تیاز کمتری به
فراگیری مهارتهای جستجو داشتند و اغلب از متخصصان اطلاع رسانی برای دسترسی
al اطلاعات کنک می,گزفتنة: آها آمزفزه باید تدون تحضوز, یک واسظ انسانی و
داشتن دانش کافی درباره اصول و مهارتهای جستجو و بازیابی اطلاعات به کاوش در
اینترنت و فراگیری اصول و مهارتهای اطلاع یابی برای جستجو گران مهم و حیاتی
شد.
اطلاع یابی, مجموعه مهارتهای مورد نیاز برای شناسایی,دسترسی و جستجوی
اطلاعات است .
صفحه 3:
چرا باید در شبکه جهانی وب به جستجوی اطلاعات پرداخت
1.منحصر بفرد بودن : برخی از منابع اطلاعاتی در شبکه جهانی وب نمونه چاپی
یا الکترونیکی( بر روی دیسک فشرده یا شبکه های پیوسته )ندارد. پایگاه اطلاعاتی
مقالات تمام متن LolS Yio sgl> oS find articles هزاران مقاله است ننها از
طزیق شنبکه جهانی :وب قابل دستتزنتن است:و نسبحه خاپی يا الکتزونیکن ندارد.
بسیاری از منابع مرجع مانند فرهنگها راهنماها و سرگذشتنامه ها منحصرا از طریق
محیط وب در دسترس قرار می دهند :
2.روز آمد بودن: یکی از ویژگیهای مهم شبکه جهانی وب نسبت به رسانه های
چاپی انعطاف پذیری بیشتر آن برای روز آمد سازی اطلاعات در زمان کوتاهتر است.
امروزه اطلاعات بسیاری از پایگاههای اطلاعاتی در وب نظیر
ERIC,(www.ncbi,nim.nih.gov/pubmed)(http://askeric.org/eric)
۷۱۴0۱۱۴ و پروانه های ثبت اختراع امریکا (۱۱52۲0.90۷ ۷۷/۷/۰) هر هفته به روز
می شو ند.
3. رایگان بودن : برخی از منابع اطلاعاتی در شبکه وب رایگان هستند و همین
موضوع انگیزه ای قوی برای جستجوی اطلاعات در این محیط به وجود آورده است.
مثال از طریق ) onelook dicionaries (www.onelook.com میتوان به طور
رایگان در بیش از 800 فرهنگ پیوسته رایگان (بیش از 8/4 میلیون واژه)به جستجو
esl», یا از طریق سایت vie national academic press(www.nap.edu)
صفحه 4:
4.سهولت جستجو و بازیابی اطلاعات :سهولت جستجو و باز یابی اطلاعات از
طریق کلید واژه های مورد نظر را در کادر جستجو وارد کرد و فرایند بازیابی
اطلاعات را در پیش گرفت.
در بسیاری از موارد جویندگان اطلاعات ترجیج می دهند به جای مراجعه به کتابخانه
ها و مراکز اطلاع رسانی از طریق کامپیوتر شخصی خود به جستجوی اطلاعات مورد
نظر بپردازند زیرا جستجوی کلید واژه ای یا مرور صفحات وب بسیار آسانتر از شیوه
های سنتی دسترسی به اطلاعات است .سهولت انجام جستجو (نه بازیابی اطلاعات
مورد نظر )در محیط گراقیکی وب حتی بر رفتار اطلاع یابی دانش آموزان نیز تاثیر
اشته است به طوری که بسیاری از دانش آموزان آمریکایی جستجوی کلید واژه ای
در وب را به جستجو در برگه دان کتابخانه ها ترجیح میدهند و عقیده دارند که
استفاده از این محیط برای انجام تکالیف درسی و تحقیق به مراتب آسانتر است .
5.دسترسی به اطلاعات چند رسانه ای : یکی از مهمترین قابلیتهای شبکه
جهانی وب , امکان جستجو و بازیابی حجم بسیار زیادی از اطلاعات چند رسانه ای
شامل صوت,تصویر و ویدیو است.
صفحه 5:
سیر تحول تاریخی ابزارهای کاوش
شبکه جهانی اینترنت در اواخر دهه 1960 پا به عرصه ظهور گذاشت , اما تا سال
0 ابزارهایی برای کاوش اطلاعات موجود در آن وجود نداشت. با مروری اجمالی
بر تاریخچه ابزارهای کاوش اینترنت میتوان دریافت که تقریبا کلیه پیشرفتها در اين
زمینه توسط دانشجویان و طرحهای پژوهشی آنها صورت گرفته است.
در سال 1990 اولین ابزار کاوش اینترنت توسط آلان امتیج (2۳0۲۵96 ۸۱۵0) در
دانشگاه cos MacGil University عنوان ۸۲6۱6 توسعه یافت. اين ابزار کاوش
تنها میتوانست فایلهای اینترنتی, نه متن و اسناد موجود در اینترنت را بازیابی کند.
در سال 1993 در دانشگاه نوادا برای بازیابی اسناد و متون در سرورهای گوفر
نظامی«مشایه آرکن «ظراحی: شد که,وزونیکا نام داشت::در واقع وزونیکا بزای آولین:
بار امکان جستجو و باز یابی متن و اسناد ساده (بدون تصویر یا پیوندهای فرامتنی )
را در اینترنت فراهم کرد .
آرکی و ورونیکا پدر و مادر تمام ابزارهای کاوش امروزی به شمار می آیند. بعدها دو
ابزار کاوش برای جستجوی اطلاعات در محیط وب توسعه یافتند که عبارت بودند از
آلی وب و ورالد واید وب واندرر . ورالد واید وب واندرر که توسط ماتژگری در
دانشگاه ۱/۱۲توسعه یافت از روبات ها به تعبیر دیگر برنامه های کامپیوتری برای
جستجو و نمایه سازی صفحات وب استفاده می کرد. به اين ترتیب اولین موتور
کاوش پا به ظهور گذاشت و پایگاه موتور کاوش تحت عنوان وندکس شکل گرقت .
صفحه 6:
!تلا
در اوایل سال 1994 دو دانشجوی دوره دکتری مهندسی برق دانشگاه استانفورد به
نامهای دیوید فیلو و جری یانگ فهرستی از سایتهای وب مورد علاقه و منتخب را تهیه
و در محیط وب ارائه کردند . سپس به منظور جستجو در پایگاه اطلاعاتی گرد آوری
شده از سایتها , نرم افزار کاوشی (www.yahoo.com) |b ul 5 2529581 ul a
۵0 نام نهادند . پس از مدتی , حجم اطلاعات موجود در ۱۷۵۳۵0 افزایش
یافت و روزانه هزاران نفر به آن مراجعه کردند.
Alta vista (www.altavista.com) 1995 rolw> 52 به عنوان یکی از شناخته
شده ترین موتور های کاوش ظهور پیدا کرد و به دلیل ویژگیها و نوآوریهایی که در آن
پیش بینی شده بود, به سرعت به عنوان یکی از بهترین ابزارهای کاوش اینترنت
مطرح شد: به طوری که توانایی انجام روزانه میلیونها جستجو را بدون کاهش
سرعت بازیابی اطلاعات به همراه داشت .۷53 ۸۱62 اولین موتور کاوشی بود که
از زبان طبیعی ( مانند جستجوی جمله آب و هوای تهران چطور است ؟) و عملگرهای
بول برای باز یابی اطلاعات در محیط وب استفاده کرد .
در ماه می 1996 (۷/۷۷۷۰۵۵/۵۵۲,6۵۳0) ]50 ۲۱۵۲ به عنوان یکی دیگر از ابزارهای
کاوش مهم ایداع شد که روبات آن قادر بود روزانه حدود 10 میلیون صفحه در محیط
وب را در پایگاه خود نمایه کند. در سال 1995 اولین ابر موتور کاوش توسط آریک
سلبرگ تحت عنوان ۷/۷/۷۰۳۵۱۵6۲۵۷/۱6۲6۵۳0) )۱۸6۲۵6۲۵۷۷۱۵۲ ظهور پیدا کرد .
اين ابر موتور کاوش می توانست در پایگاه شش موتور کاوش و راهنمای موضوعی
به طور هم زمان به جستجو بپردازد .
صفحه 7:
Google
در اواخر سال 1997 یکی از بزرگترین و مهمترین ابزارهای کاوش امروزی یعنی
موتور کاوش 600916 (۵۵0916.0۳0. ۷/۷۷ ) از طریق طرح تحقیقاتی دانشگاه
ستانفورد ظهور یاقت .
| 60091 تلاش كرد كه در نظام رتبه بندى نتايج کاوش خود مبتنی بر میزان ارتباط
آنها با کلید واژه های جستجورتحول اساسی به وجود آورد که از طریق استفاده از
معیار میزان استناد به یک سایت مشخص توسط سایت های دیگر صورت مي گيرد.
* 2
صفحه 8:
ابزارهای کاوش اینترنت چیست؟
ابزارهای کاوش اینترنت پایگاههای اطلاعاتی جسنجو یا مرور هستند که با استفاده از
نها میتوان به «بخشی » از اطلاعات موجود در اینترنت دست یافت . این ابزارها
به دو شیوه کاربران را به سوی اطلاعات مورد نظر راهنمایی می کنند:
جستجوی کلید واژه ها
مرور و انتخاب پیوندهای فرامتتی
کاربران را به سوی اطلاعات مورد نظر, هدایت می کنند .
ابزارهای کاوش اینترنت را ميتوان به دو نوع اصلی تقسیم بندی کرد:
راهنمای موضوعی
موتورهای کاوش
1 راهنماهای موضوعی :
زاهنقای توصوعن وتان آهاتی رسد که اظلاطات :صحات با سا نتفای توب
منتخت:زا توسط نیروی: انسانی:دز پایگاه:خود: نمایه مق کنند:
2 موتورهای کاوش :
موتورهای کاوش , پایگاههای اطلاعاتی قابل جستجویی هستند که از طریق برنامه
هاي کامپیعتریبه* شناساین و نمایهبازی خودکار: صفحاتوب؛سن پزدازند:.
موتورهای کاوش بر خلاف راهنماهای موضوعی , برنامه های خودکاری هستند که
هد گوس اتکی سریووی اسان بدارند جع عور دوي نوارند
شناسایی,انتخاب و نمایه سازی اطلاعات وب توسط برنامه های کامپیوتری انجام
می شود .
صفحه 9:
موتور جستجو چگونه کار می کند؟
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود,
کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور
جستجوگر قبلا" پایگاه داده اش را آماده کرده است و اين گونه نیست که درست در
همان لحظه جستجو, تماق وب زا نگردد. بستیارق از خود می پزستد كه جكونه ممكن
است گوگل در کمتر از يك ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را
در نتایج جستجوی خود ارایه کند؟
و هیچ موتور جستجوگر دیگری توانایی انجام اين کار را ندارند. همه آنها در
زمان پاسخ:گوبی: به جستجوهای کاربران,تتها در ایگه داده ای که در اختيار دارقد به
جستجو می پردازند و نه در وب! موتور جستجوگر به كمك بخش های متفاوت خود,
اطلاعات مورد نياز را قبلا" جمع آوری, تجزیه و تحلیل می کند. آنرا در پایگاه داده اش
ذخيره مى نمايد و به هنكام جستجوی کاربر تنها در همین پایگاه داده می
گردد. بخش های مجزای يك موتور جستجوگر عبارتند از:
۲ با عنکبوت
۲ با خزنده
۲۳ با بایگانوک ننده
6 با پایگاه داده
۲ با سیستم رتبه بندی
صفحه 10:
الف ۵106۲ 5-عنکبوت
اسپایدر یا روبوت (805۵6), نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز
يك موتور جستجوكر زا بز عهده دارد. اسنبايدنبه.ضفعات مختلف aloe pa
محتواى أنها را مى خوائد. لينكها را دنبال می کند. اطلاعات موردنباز را جمع آوری
می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد. کار يك
السباندرم سيار شبيه كار كاريران وب است: :هماتطون كه كاريزان:صفحات مختلف بز
بازدید می کنند. اسپایدر هم درست این کار را انجام می دهد با اين تفاوت که اسپایدر
کدهای ۲۱۲۱/۱ صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن
اين کدها را. 1006.۲۱ صفحه ای است که کاربران آنرا به صورت شکل (1) می
بینند:
1 Ya 2001 by
Mehdi Roudaki
۳۳۳8۲۲
صفحه 11:
شکل 1- نمونه ای از صفحات وب که توسط مرورگرها نشان داده می شود.
آما یک اسپایدر آنرا چگونه می بیند؟
sly اين که شما هم بتوانید دنیای وب را از دیدگاه يك اسپایدر ببینید, کافی است که
کدهای ۷۱۲۲/۲ صفحات را مشاهده کنید. برای اين کار در مرورگر مورد استفاده خود,
مسیر نشان داده شده در شکل (2) دنبال کنید.
با انجام اين کار قایل متنی شکل (3) به شما نشان داده می شود:
موم نس
شکل 3- کدهای ۲۱۲۱۷۱ سازنده يك صفحه وب
صفحه 12:
اسپاندز::نه هنگام مشاهده: صفعات: :یز زوق بتزوزها زدبا پزجاق می گذازد. ستتا
اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات
انجام شده در آن را داشته باشید, می توانید مشخص کنید که اسپایدر کدام یک از
موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است. یکی از فعالیتهای
اصلی که در 5۴ انجام می شود تحلیل آمار همین دید و بازدیدها است.
اسپایدرها کاربردهای دیگری نیز دارند. به عنوان مثال عده ای از آنها به سایت های
مختلف مراجعه می کنند و فقط به بررسی فعال بودن لينك های آنها می پردازند و یا
به دنبال آدرس ایمیل (/[8۳0۵) می گردند.
ب- Crawler (خزنده)
کراولر, نرم افزاری است که به عنوان يك فرمانده برای اسپایدر عمل می کند. آن
مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر
تصميم مى كيرد كه كدام يك از لينك هاي صفحه اى كه اسپایدر در حال حاضر در آن
قرار دارد, دنبال شود. ممکن است همه آنها را دنبال کند, بعضی ها را دنبال کند و یا
هیچ کدام را دنبال نکند.
کراولر, ممکن است قبلا" برنامه ریزی شده باشد که آدرس های خاصی را طبق
برنامه, در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لينك های یک
صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را
می تواند (می خواهد) در پایگاه داده اش ذخیره کند. همچنین ممکن است اجازه
دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
صفحه 13:
شما به عنوان دارنده سایت. همان طور که دوست دارید موتورهای جستجوگر
اطلاعات سایت شما را با خود ببرند. مى توانید آنها را از بعضی صفحات سایت تان
دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر
مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در
صورت وجود) در قايلى خاص بررسى مى كند و از حقوق دسترسى خود اطلاع می
يابد. تنظيم ميزان دسترسى موتورهاى جستجوكر به محتواى يى سايت توسط
پروتکل 800015 انجام می شود. به عمل کراولر , خزش (0۲۳3۷/۱9) می گویند .
ج- ۱۱066۲ (بایگانی کننده)
تمام اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در
این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های
متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود
اطلاعات از کدام صفحه ارسال شده است, چه حجمی دارد. کلمات موجود در آن
کدامند, کلمات چندبار تکرار شده اند, کلمات در کجای صفحه قرار دارند و
در حقیقت ایندکسر, صفحه را به پارامترهای آن خرد می کند و تمام اين پارامترها را
به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحاأت
مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات, ایندکسر برای کاهش
حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر 2
5 , ۰۷۷۷۷۷۷ ۳6 , 20 , و ... . از اين گونه کلمات هستند.
صفحه 14:
تمام داده های تجزیه و تحلیل شده در ایندکسر, به پایگاه داده ارسال می گردد. در
اين بخش داده ها كروه بندى, كدكذارى و ذخيره مى شود. همجنين داده ها قبل از
آنکه ذخبره شوند, طبق تکنیکهای خاصی قشرده می شوند تا حجم کمی از پایگاه
داده را اشغال کنند. يك موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به
طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز
رسانی نماید. بزرگی و به روز بودن پایگاه داده يك موتور جستجوگر برای آن امتیاز
محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده
آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
و- ۵06۵۲ (سیستم رتبه بندی)
بعد از آنکه تمام مراحل قبل انجام شد. موتور جستجوگر آماده پاسخ گویی به
سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی (80 56276) آن
وارد می کنند و سپس با فشردن ۴0۲6۲ منتظر پاسخ می مانند. برای پاسخگویی به
درخواست کاربر, ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو
شده, مرتبط هستند. مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل
شده, آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج
جستجو به کاربر نمایش می دهد.
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند
پاسخ های مرتبطی را ارایه کند. يك موتور جستجوگر ضعیف خواهد بود. در حقیقت
سیستم رتبه بندی قلب تبنده يك موتور جستجوگر است و تفاوت اصلی موتورهای
جستجوگر در اين بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات
کاربران, پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختبار
صفحه 15:
حرفه ای های دنیای 5۴ به طور خلاصه از آن به ۸۱90 ( الگوریتم) یاد می کنند.
الگوریتم, مجموعه ای از دستورالعمل ها است که موتور جستجوگر با اعمال آنها بر
پارامترهای صفحات موجود در پایگاه داده اش, تصمیم مى كيرد كه صفحات مرتبط را
چگونه در نتايج جستجو مرتب کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را
گوگل در اختیار دارد.
می توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده. موتور
جستجوگر را شامل سه بخش زیر دانست که اين گونه تقسیم بندی هم درست می
باشد:
کراولر
بایگانی
سیستم رتبه بندی
تذکر- براي سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به
میان می آید, مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور
جستجوگر وارد می شود.
صفحه 16:
Open Directory (www.dmoz.org) راهنمای موضوعی
2 به عنوازيكواز مهمترينو جامع ترینراهنماها یم وضوعیوبدر ژونن1998
تحنعنولن۱۱6۷۲۷۵0 در دسترسقرار گرفتلینابزار کاوشت وسط ویراستاران
داوطلباداه ميشود و نها در سراسر دنیا وظیفه بریسیو وارد کردنسایتهای
معرفیشده را بر عهده دارند. طبقمار ارلئه شده 7 وسط لینسایها آبانماه
1 حدود 53 هزار ویراستار داوطلییا سایتهمکاروداشتند. توصیفارلئه شده
برایهر سایناز کیفینو محتوایخوبیب رخوردار استبعلاوه, لین راهنمایموضوعی
هیچ هدفت_جاریو لنتفاعیندارد و همگانمیتولنند با آنبه عنوانویراستار موضوعی
اهمکایفک ند با سایبهاترعط و یبا کیفیترا ز ری هام وس عرمهتلیان
معرفینمایند. برخماز مهمترینابزارهایکاوشن lycos 9 Google. HotBot pl
در ب خشراهنمایموضوعیخود از پایگاه 01۳66۷0۳۷ 006۳ لستفاده میکند.
نقاط قوت:
بزرگترین راهنمای موضوعی که توسط انسان اداره میشود
غير انتفاعى بودن و غير تجارى بودن سايت
دارای ساختار سلسله مراتب موضوعی قوی و نسبتا جامع
سیاست نمایه سازی برای گنجاندن سایتهای با کیفیت و معتبر
داراق افکانات جشتجوی مناست تتببت به سای راهنفاهای ie Grass
امکان انجام جستجو در یک تقسیم موضوعی مشخص و خاص
امکان جستجو از طریق عملگرهای بول و ریاضی
صفحه 17:
نقاط ضعف:
در موارد معدودی: کیفیت سایتهای نمایه شده, یک دست و هماهنگ نیست
نسبت به موتورهای کاوش پایگاه اطلاعاتی کوچکی دارد
عدم حساسیت به بازیابی کلید واژه با حروف بزرگ یا کوچک
pas امکان استفاده از عملگر نزدیک یابی
عدم امکان محدود کردن کاوش از طريق زبان و تاريخ
عدم امکان تعیین مدخل ها برای نمایش در هر صفحه
صفحه 18:
MSN Search )۲۱۲۵۵://56۵۲6۳۰۴05۰6۵۲0( موتور کاوش
۳6 ۱/5۱1 موتور کاوشیاسبکه تتوسط شرکنمایکروسافتوله اندازعشد. لین
موتور کاوشبرایبازیابیاطلاعاتاز پایگاه 0۲00۳0 و راهنماعموضوعی!۱00
۲ لستفاده میکند در بخشجستجوعساده آن مک سیجیویها ابل دیزی
اسداما در بخشجستجووييشرفته. قابليتهائنسبتا مناسبىييشبينوشده است
بر آورد دقیقیاز حجم پایگاه لطلاعاتیآنوجود ندارد. لینموتور کاوش از لحاظ جلو
يركاز باز يابىوسايتهائفير اخلاقى سيار مطمئناستو تخود کار از
بازيابىجنينسايتهايىجلوكّيرىميكند.
نقاط قوت:
امكان جستجو از طريق قابليت Page Depth Limit
داراى برنامه غلط یاب خود کار کلمات انگلیسی
امکان رتبه بندی نتایج بر اساس تاريخ, عنوان و عمق سایت
امکان جستجوی فرمت های مختلف فایل پیشرفته
نقاط ضعف:
عدم استفاده از عملگرهای بول در جستجوی ساده
بازیابی نتایج متفاوت از طریق عملگر به کارگیری عملگر کوتاه سازی
عدم امکان استفاده از عملگر نزدیک یابی
عدم امکان ترجمه سایتها به زبانهای مختلف
عدم امکان محدود کردن تاریخ انتشار صفحات وب
صفحه 19:
موتور کاوش HotBot (www.hotbot.com)
۲ در ماه می 1996 ظهور پیدا کرد. اين موتور کاوش دارای امکانات و
قابلیتهای جستجوی پیشرفته و مناسبی به ویژه در بخش جستجوی ساده است. در
واقع, بسیاری از قابلیتهای جستجوی ساده, طراحی شده و در دسترس قرار گرفته
است. راهنمای موضوعی ۲۱۵۲80۲ از پایگاه 01۳۵6۷۵۳۷ 006۳ استفاده میکند. اين
موتور کاوش از دو پایگاه ۱۳۷۵۲ و ۲۱ 01۳66۲ برای بازیابی نتایج اصلی بهره
د. طبق اخرین آمار مستند برآورده میشود که این موتور کاوش بیش از 500
میلیون صفحه وب را در پایگاه خود نمایه کرده است.
نقاط قوت:
امکانات جستجوی پیشرفته در بخش جستجوی ساده
امکان جستجو از طریق قابلیت Page Depth Limit (كاوش مبتنی بر عمق صفحات
وب)
امکان جستجوی فرمت های مختلف فایل در بخشهای جستجوی ساده و پیشرفته
تمايش أظلاعات به ضورت مفضل ومختهر
امکان جستجوی نام یک شخص از طریق گزینه ۴6۲5۵۳ ۲06"
صفحه 20:
نقاط ضعف:
جستجوی صفحات پیوند داده شده Link Search 9 نیست.
دارای پایگاه اطلاعاتی نسبتا کوچک مه به آهستگی 7 میکند
برخی از قابلیتهای کاوش در بخش جستجوی پیشرفته هميشه درست کار نمیکند
فاقد عملگر نزدیک یابی است
عدم امکان ترجمه سایتها به زبانهای مختلف
عدم امکان جستجوی کلید واژه ها در قالب پیوند فرامتنی
نداشتن برنامه غلط یاب خود کار برای تصحیح املای کلمات انگلیسی
حساس نبودن نسبت به کلید واژه ها با حروف بزرگ و کوچک
7 امکان حذف نتایج تکراری از سایتی واحد و برعکس. دسترسی به سایتهای
ابه
صفحه 21:
موتور کاوش(۸۱۱۲۱۵۷/۵۵.6۵۲۴ 563۳6)۷۷۷۷۷۰ 5ج
search ]۴5در ماه می 1999 در دسترس کاربران اینترنت قرار گرفت . این
موتور کاوش با عنوان ۷۷60 ۲06 ۸ هم شناخته میشوند و نشانی دسترسی آن نیز
مشابه اين نام است(۷۷۷۷/۰3۱۱۵۱6۷/60.60۳۱). این موتور کاوش در اوایل مرداد ماه
1 مدعی شد با 2.1 میلیارد صفحه, از بزرگترین ابزارهای کاوش اینترنت است.
قابلیتهای جستجوی اطلاعات:
562۲6 ۴۵5۲ امکاناستفاده از عملگرهایبول(بجز 80/0 ). جستجوعت رکیبیو
کوتاه سازعرا ارلثه ن میدهد و تنها میتواناز عملگرهایریاضی+ و - استفاده کرد.
براىاجراىعملكرهاىي ولبايد از بخ شجستجوىييشرفته و فهرسياأنتخاب
استفاده کرد.
نقاط قوت:
یکی از بزرگترین پایگاههای اطلاعاتی در میان ابزارهای کاوش
سرعت بازیابی بالا
در میان ابزارهای کاوش, بیشترین تعداد زبان(49 زبان) را پوشش میدهد.
امکان دسترسی به کلیه نتایج بازیابی شده
صفحه 22:
امکان بازیابی فایلهای ۲۵۴ و ۲۲۴
امکان محدود کردن جستجو از طریق حجم صفحات وب براساس کیلو بایت
دارای بخشهای جستجوی جدا گانه برای بازیابی اطلاعات چند رسانه ای شامل
بت,تصویر و ویدئو
جستجو در نشانی پروتکل اینترنت(۸00۳655 ۱۴) که منحصر به فرد است.
تمانة سسازی"ضفحات ونیا به اصوزتتمام منق
نقاط ضعف:
عدم امکان استفاده از عملگرهای بول, کوتاه سازی و نزدیک یابی
محدود بودن امکانات جستجو در فیلدهای مختلف
عدم امکان ترجمه سایتهای بازیابی شده
نداشتن برنامه غلط یاب خود کار برای تصحیح املای کلمات انگلیسی
حساس نبودن نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک
عدم امکان حذف نتایج تکراری از سایتی واحد و برعکس, دسترسی به سایتهای
مشابه
صفحه 23:
راهنمای موضوعی ۱۷۵۵۵
بدون شک ۷۵۳۱۵0!شناخته شده ترین, پر مراجعه ترین و عامه پسند ترین ابزار
کاوش اینترنت است. هرچند که امروزه با ظهور راهنماهای موضوعی بزرگتر و
قدرتمند تری نظیر aS DMOZ از محبوبیت آن به ویژه در میان محققان و
کاوشگران حرقه ای کاسته شده است. ۱۷۵۳۵۵ در اواخر سال 1994 در دسترس
قرار گرفت و ابتکار طراحان آن در جهت شناسایی و تقسیم بندی موضوعی سایتهای
اینترنت توسط انسان باعث شد تا هم اینک روزانه دهها میلیون نفر در سراسر جهان
به آن مراجع کنند. طبق آخرین lel حدود 1.8 میلیون سایت در پایگاه اين راهنمای
موضوعی نمایه شده است و بیش از 150 ویراستار به کار شناسایی یا توصیف
سایتهای اینترنت در آن مشغول فعالیت هستند.
0 بکلبزار کاوشکاملا تجارعاستبه طورعکه سایتهاعت جارعب ا
پرداختجدود 300 دلار میتولنند ثبسایتخود در آناقدام کنند. پرداخت
لینهز معناعوارد شدندر پایگاه ۱۷۵۳00 ن لکه لینمبلغ بسه عنولن
هزینه ب-رسیساینه ریافتميشود. تبلیغاتو خدماتجانبیدیگر از پس کترونیکی چت
موسیقیگرقته تا وضعیتآبو هواء ورزشو خرید ف روشاجناس
.. ماهیتاصلی۷3۳00! را به عنوانی کراهنمایموضوعیسایتهاعوبدر جهانتا
زیادعت wile قرار داده است۷۵/06! داراعامکاناتجستجو و بازیابی
نسبتا ضعیفیاست
صفحه 24:
نقاط قوت:
شناخته شده ترین و پر مراجعه ترين ابزار کاوش اینترنت
دارای خدمات جانبی عامه پسند برای عموم مردم
نقاط ضعف:
prs امکان استفاده از عملگرهای بول
عدم استفاده از پرانتز برای انجام جستجوهای پیچیده
عدم حساسیت به بازیابی کلید واژه ها با حروف بزرگ و کوچک
عدم امکان محدود کردن کاوش از طریق از طریق زبان
دارای پایگاه اطلاعاتی کوچکی است
رویکرد کاملا تجاری نسبت به برسی و گنجاندن سایتها در پایگاه خود
صفحه 25:
موتور کاوش Google
موتور کاوش 600916 یکی از جدید ترین ابزارهای کاوش وب است که در سپتامبر
1999 در دسترس عموم قرار گرفت . با اینکه 6009۱6 به تور نسبی بسیار زود به
عرصه رقابت ابزارهای کاوش اینترنت گام نهاد. ولی به سرعت در میان مردم
شناخته شد. این موتور کاوش , مبتکر نظامی منحصر به فرد یعنی تجزیه و تحلیل
پیوندهای فرا متنی برای رتبه بندی نتایج کاوش است که تحت عنوان ۱1۷
۵۷ از آن نام برده ميشود. ذخیره تصوير از صفحات پا سایتهای نمایه شده
در پایگاه 6009۱6 تحت عنوان 26۳60 با کاربران امکان میدهد که صفحات یا
سایتهای وب را در همان زمانی که توسط روبات آن شناسایی و نمایه شده اند ,
مشاهده کنند. 6۵00916 اخیرا در رقابتی فشرده با موتور کاوش 563۲۳60 ۴۵5 ,
توانست عنوان بزرگترین موتور کاوش منفرد در محیط وب را به خود اختصاص دهد.
به دلیل واسط جستجوی ساده و بدون گرافیک و نیز استفاده از برنامه بازیابی
اطلاعات مناسب , این موتور کاوش از سرعت بازیابی بالایی برخوردار است.
حجم پایگاه اطلاعاتی:
6 ب زرگترینو جامع ریپ ایگاه اطلاعاتورا میانلبزارهایک اوشمنفرد در
اختیار دارد , به طوری که مدعیاستتا اواخر آبانماه 1381 بیشاز سه میلیارد
صفحه وبوا در پایگاه خود نمایه کرده اسنوشد حجم پایگاه اطلاعانه |6009
بسیاز سزیع بوده اس طوریکه در مدسومانیک وتاه بسه عنوازی ز رگترین
موتور کاوشوبمطرح شد.
صفحه 26:
قابلیتهای جستجوی اطلاعات :
60096 از قابلیتهاچستجوین سبتا ضعیفو محدودی رخوردار اسنکه در ولقع
جامعینهایگاه اطلاعاتیآنرا تحنشعاع قرار داده استلینموتور کاوش, فقط
عملگر 08 را قبولمیکند و استفاده از دیگر عملگرها شامل۸۱80,۱10۲ پرلنتز
كوتاه سازى نزديكويابىيه صورتهرج عملكرها ميانكليد واه ها در آنامكان
پذیر نیستمکاناستفاده از عملگرهایریاضی+ و - در 600916 وجود دارد. ولعبا
وجود لینن_میتولناز طریق ی رلنتز, جستجوعت رکییانجام داد. لینموتور کاوشلمکان
جستجویانولع مختلفیاز قایلهاینظیر ۴0۴ و 0۴666 ۷۲۵50۲۲ را ارلئه میدهد
کنه:ت_قریبا در فیانموتونهایک امش متحضر به اف رد انست راهتجاموضوعی
عاو600 از پایگاه 0۱۳66۵۳۷ 006۳ استفاده میکند.
در اوایل اردیبهشت ماه 1381 اين موتورهای کاوش, واسط جستجوی فارسی خود را
در دسترس قرار داد که از طریق گزینه ۳۵6۱5 6ودنا09ه۱ یا آدرس
2 میتوان آن را فعال کرد. 6009۱6 جز زبان فارسی, امکان
تغیبر واسط جستجوی انگلیسی به 80 زبان دیگر را ارئه میکند و تحول بزرگی در
طراحی ابزارهای کاوش چند زبان محسوب میشود.
نقاط قوت:
بزرگترین ابزار کاوش منفرد از لحاظ حجم پایگاه اطلاعاتی
معیار رتبه بندی سایتها بر اساس تعداد صفحات پیوند داده شده
امکان مشاهده سایتهای بازیابی شده در زمان نمایه شدن
صفحه 27:
امکان جستجوی مختلف فایل بویژه فایلهای Microsoft office
امکان ترجمه صفحات وب به 12 زبان مختلف
دارای برنامه غلط یاب خود کار برای تصحیح املاء کلمات انگلیسی
امکان تغییر واسط جستجو به 81 زبان مختلف از جمله فارسی
دارای واسط چستجوی ساده و بدون تبلیغات
اشرعت بالاتبازیانی اطلاعات
قابلیت جستجوی تصویر و اخبار جهان
امکان دسترسی به صفحات مشابه از طریق گزینه ۴۵965 Similar
نقاط ضعف:
امکانات نسبتا محدود برای جستجوهای پیشرفته از طریق عملگرهای بول
عدم امكان جستجو از طریق عملگر نزدیک یابی
تنها نیمی از صفحات وب در پایگاه اطلاعاتی آن به صورت تمام متن نمایه شده اند .
پیش گزیده کاوش:
6 به طور خودکار, عملگر ۸۱۱0 را میانکلید واه هایجستجو اجرا میکند
صفحه 28:
عملگرهای بول و ریاضی:
096 به طور خودکار, كليد واه ها را از طريقعملكر 81/0 تركيبميكند. به
عبارتفيكر. نبايد عملكر 81000 را به كار برد. عملكّر 08 را بايد با حروفيزركق
به کار برد. براعاجرایعملگر ۱۱0۲ باید از علامتمنفی(-) استفاده کرد. از
عملگر رباضیمثببل+) میتوانبه جای۸(!0 استفاده کرد.
جستجوی عبارتی و نزدیک یابی:
600016 جستجووعبارتىرا از طريققرار دادزعبارتها كليد وازّه هاوجستجو ميان
علامتكيومه (" ") مورد حمايتقرار ميدهد. لما نميتواناز عملكر نزديكيابى
استفاده کرد.
کوتاه سازی:
qx Google شکلاز عملگرهایکوتاه سازی حتیريشه اصلیک لماتوا پوشش
حساسیت نسبت به جستجوی کلید واژه ها با حروف بزرگ :
اين موتورهای کاوش نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک, حساس
صفحه 29:
فیلد های قابل
فیلدهایی که از tel ca میتوان به جستجوی اطلاعات در 6ا6009 پرداخت, عبارتند
از:
با ای عبارت يا کلید واژه در عنوان سایت۱00[]6:
intitle:Iranian Newspaper:aile
بازیابی کلید واژه در نشانی دسترسی صفحات وب tinurl
inurl:amirkabir:sile
بازیابی صفحات وب پیوند داده شده به یک سایت مشخص ۱:۳:
link:www.mashhadmit.ir: isle
جستجوی کلید واژه ها در یک سایت شخصی مشخص :56
site:www.cnn.com: aisle
بازیابی صفحات مشابه از یک سایت related ols
related:www.unesco.org: aisle
بازیابی داده ها در قالب پیوند فرامتنی۵1۱10۵۴06۳60۲:
انند:
allinanchor:free journals
صفحه 30:
محدود کننده ها (زبان و تاریخ)
6 لمکانمحدود کردنف رلیند جستجویاطلاعانوا از طریق35 زبانمختلفارلثه
یدهد. علاوه بر لین امکانمحدود کردنتاريخ لنتشار صفحاناز طریق فهرست
لنتخاباز سه ماه تا الب یش بینیشده استدر لینمیان قابلیتوبه منظور
محدود کردرتاریخ لنتشار منابع میاندو طیف زمانیمشخصپ یشب ینون شده است
شیوه رتبه بندی و مرتب سازی:
Google از طریقت جزیه و تحلیلپ یوندهایگنجانده در سایتهاعمهم به رتبه
بندعاطلاعانب ازیابیشده میپردازد.
اين قابليت كه 00۵۷۱8۲10۷ ۱۱0۲ نام دارد. مبتنی بر تعداد پیوندهای فرامتنی یا به
تعبیری:دنگز: استتادها به صنفحههات با سایتهای وب است:به این ترتیب اگز به یگ
سایت, تعداد بیشتری از صفحات یا سایتهای وب استناد کرده باشند, احتمالا از اهمیت
پیشتری برخوردار خواهد بود و در رتبه بندی نتایج کاوش رتبه بالاتری را بدست می
آورد.
نمایش اطلاعات:
96 عنوان ن شانیدسترسی حجم فایل مدنومانک اوشو همچنیت عداد نتایج
بازیابیشده را نشانمیدهد.
اين موتور کاوش به صورت پیش گزیده 10 مدخل را در هر صفحه نمایش میدهد اما
امکان نمایش 20 تا 100 مدخل ابتدایی بازیابی شده را مشاهده کرد. امکان gle
گیری از بازیابی صفحات یا سایت های نا مناسب و غیر اخلاقی در جستجوی پیشرفته
از طریق گزینه 568۲6 5276 وجود دارد .
صفحه 31:
عناصر صفحات نتایج گوگل
۸ 8 6
[eb ies هه ص
Googl le a a aa may | |
سس سس گس سس i
Web تا
Fr mip sca a te os
News et fo googie
۳3 eth timo H
wr tn Sst Dy
7 Goa” Soven 488 Te
لادوم مد اط اساسا سام وم موس و
وس (oats
صفحه 32:
۸.جستجو پیشرفته
شمازرا بسمبمتفحه آوکنه تما زا بسه,محدو دا رینچستجواقتامردسییتازو لترتكک
میکند. 8.مشخصانو مزیتها (۴۲۵۲۵۲۵۴6۵5)
لینکها به صفحه اعکه شما را قادر میسازد تا gruizslagasl
(preferences) را مرتبکنیه شاملتعداد نمایشنتایج در هر صفحه, زبان
لینترفیس و C.Language Toolscuwhsialre grim> sib 9 j| oslaiw!
Tools for setting language preferences for pages to be searched,
sriwzslasilainl,.interface language and translation of results. D
شما را به اطلاعاتوکه به شما کمكمیکند تا جستجویخود را مش ازید
[ ینكمیکند لینتوضوع بته شتما میگوید که گ وگلچه:فوتها و خصوصیاتیننسبت
به ماشینهایجستجوگر دیگرعدارد. ع.زمینه جستجو
براعوارد کردنپرسو جوپیدر گوکل کافیستا کلماتکلیدوت شریحیخود را
تایپکرده, سپسبر رویکلید نجو کلید کرده یا کلید 60۷6۲ را بزنید.
۴.دکمه جستجو:
ليكبر روعلینکلید به لینمنظور لسنکه جستجوعدیگریرا لنجام میدهید. همچنین
شما میتولنید تا پرسو جوعدیگریرا با زدنکلید 6۳۱۲6۲ تایید کنید. 6.7305
Click the tab for the kind of search you want to conduct. Choose
from a full web search, images only, Google Groups (Usenet
discussion archive) or the Google Directory (the web organized into
browsable categories) .
صفحه 33:
ا۲.مانع آماری
لینخط جستجویشما را توصیفمیکند و همچنینتعداد نتایج برگردانده را نشان
میدهد.|.دسته بندیها
گر اصطلاحاتجستجویش ما همچنیندر دایرکتورعوبیه چشم میخورند. لیندسته
بندیهایپ پشنهاد شده ممکناسنکه به شما در پیدا کردناطلاعاتب یشتر در
رلبطه با پرسو جووخود کمكکند. بر روعلنها کليكکنيد تا لینکهاعدیگرعرا
پیدا کنید.ل عنوانصفحه
آولینخطی نواننتيجه نشازداده ميشود, عنوانص یدا شده است
بعضروقتها ب-جایعنولن الا (آدرس) نشانداده ميشود. که لینبه معنیاسنکه
صفحه بيدا شده عنولنیندارد. یا گوگلتمام محتویاتصفحه را به طور کامل
فهرستکرده است؟.متنزیر عنوان
لینمتنمنتخبیاز صفحه نتیجه برگردانده شده از موضوع پرسو جو شما است
لینموضوعاتب رگزیده شه و لنتخابشده به شما لینلمکانرا میدهد تا زمینه لی
از موضوعاتکه در صفحه هستند قبلاز لینکه ب رروعانک ليكکنید
ببیتید ارت وضیحات
اگر پرسو جوعجستجو شما در دایرکتورعوبف هرستشده بود, توضیحاتمولف
نیز نشانداده میشود./۲.دسته بندی
لگر سایتیتوسط پرسو جو جستجو ی شما که در دلیرکتوووبف هرسنشده
بود پیدا شد. دسته بندعنن یز در زیر آنمشخصميشود. N.URL نتيجه
لینآدرسنتیجه یافته شده » میسآشد ۰ آندازه
ماه انداز ب خشمتنصفحه پیدا شده لا
صفحه 34:
cache did sg» LIS شده شما را قادر میسازد تا محتویات صفحه را به عنوان
وقتی که ما آنرا ضمیمه کرده ایم ببینید. اگر به هر دلیلی, لينك نتیجه اصلی شما را به
صفحه کنونی نبرد, شما میتوانید آن صفحه را از 26۳6 ما بازیافت کنید تا اطلاعاتی
که میخواهید را بیبااید. در نسخه 866 شده, موضوع جستجوی شما برجسته
است.).صفحات مشابه
وقتی شما لينك صفحات مشابه را كليك میکنید. گوگل به طور خودکار صفحات
مشابهن:را که دز اینتزتت موجودند و عبل جستجوی آنها همین:تتیجه زا بدست.
میاورند را کشف میکند. 8.نتیجه برجسته
وقتی که گوگل چند نتیجه را از يك وب سایت پیدا میکند. بیشترین نتیجه ای که در
Jol قرار میگیرد مناسبترین نتیجه نسبت به موضوع شما است. کالا865 5.10۲6
If there are more than two results from the same site, the remaining
.results can be accessed by clicking on "More results from..." link
صفحه 35:
نورهای جستجوء
hitp://uk.altavista.com گر Ping قابلیت جستجوي فارسي”
auyLSsorimaublashls | http://www.yahoo.com
http://www.google.com | دارایقابلیتجستجويفارسي
http://www.search.com | دارایقابلینچستجويف ارسي
cy Ldsorimanblasiyl | http://www.metacrawler.com
0 | دارایقابلیتجستجويف ارسي
http://www.ask.com
http://www.lycos.com
www.entireweb.com
http://www.exactseek.com
http://www.gigablast.com
http://www.goclick.com
http://www.inktomi.com
search.jayde.com
صفحه 36:
http://www.nationaldirectory.com
search.netscape.com
http://www.dogpile.co.uk
http://www.northernlight.com
http://www.mirago.co.uk
http://www.turbo10.com
http://www.webcrawler.com
http://infoseek.go.com
http://www.about.com
http://www.mama.com
http://www.excite.com
http://search.msn.com