صفحه 1:
بسم الله الرحمن
لرحیم
عنوان ارائه
مدل ها و الگوریتم های بازیابی
استاد گرامی
دکتر عزیز هدایتی
ارائه دهنده
رعنا عبدالثه زاده
صفحه 2:
سس سر( لج
#به ساده ترین سخن. ذخیره و بازیابی اطلاعات:
فعالیتهایی که برای تحلیل و سازماندهی مدارک و منابع صورت میگیرد ذخیره
le Mb! و تلاشهایی که برای یافتن يك يا جند مد رك از ميان انبوه مدارک ذخیره شده
انجام میشود بازیابی اطلاعات نام دارد.
نظاءهایی که این جریانها در آنها روی میدهد نظاءهای ذخیر» و بازیابی اطلاعات
خوانده میشود.
نظامهای ذخیم» و بازیابی اطلاعات معمولا به منظور دسترسپذیر کردن مجموعهای از
منابع اطلاعاتی بررای استفاده کنندهی که مایل به کسب این اطلاعات است طیراحسی
ee
صفحه 3:
مقدمه ... ادامه
سسس 0 لج
©اطلاعاتى كه در نظامهاى ذخيره و بازيابى اطلاعات ذخيره موشود يا صرفاً شامل
دادههای کتابشناختی استه مانند مشخصات کتابهاء اسناد و مدا رک» و مقالههای
محلات؛ پا اصل مدرک است که همراه مشخصات آنن عرضه میشود. حالت ایس
پایگاه دادههای تماع متن نام دارد.
e
هدف هم نظام ذخیره و بازیابی اطلاعات آسن است که در اسسرع وقت بیشترین
اطلاعات مرتبط با نیاز استفاده کننده را آنطور که در درخواست وی دکس شده
در اختیار بگذارد.
صفحه 4:
ابي اطلاعات به سازماندهي» ذخیره سازي» بازيابي و نمایش اطلاعات
مربوط است.
#سيستمهاي بازيلبي اطلاعات با هدف فراهم آوردن زمينة لازم براي پاسخگويي به
جستجوهاي كاربر از طريق ١ رجاع به مدارک مربوط. طراحي ميگردند.
© در جنين محيطيء مجموعداي از مدارك مانند كتابهاء مقالههاء گزارشهاي
اتي و... وجود دارد. به اضافه گروهي از کاربران.
jl © اطلاعاتي کاربر در یک زمان خاص ميتواند شامل یک یا چند مدرک باشد.
صفحه 5:
فرایند بازیابی
خاب مدارک مرتبط
تسین میزان ربط مذا رگ به پرسش,
#نمايش مدارك منتخب به كاربر
#اخذ بازخورد كاربر
#اصلاح نتايج
#ارائه راهنمايى و يا ييشنهادهاى بيشتر
#اتمام بازيابى
صفحه 6:
ساختار آزمايشي و موقتي و براي آزمون در شرایط مشابه واقعي به کار برده مي شود.
استفاده از از مدل باعث مي شود که بتوان ن در مقیاس کوچك. اجزا و متغیرها را ارائه کرد و با
تجزیه و تحلیل شرایط پیچیده اي که در اندازه واقعي انجام لن ممکن نیست. به صرفه
جويي هاي اساسي در انجام طرح دست ak ae فرضیه هاي قابل تحقیق.
آزمون پذیر و خاصي به وجود مي آیند که از طریق el تصمیم ها و
شرایط بدون عمل رن در شرایط واقعي حاصل مي 0 (مزینانی,1370). . در مجموع
مدل ها امکان اندیشیدن در خصوص مسائل و مشکلات را فراهم می سازند. آنها ابزارهای
اندیشه اند و از رکود و ایستایی پيشگيري مي کنند (ویلسون).
صفحه 7:
مدل های بازیابی اطلاعات
کر مفیل وانه «مدل» در وادهنامه ویستر آمده« تنامی مفروش براي توصیف ریاضی فادها
ose Goes آمده همدل الکوبی اس برای جیری که ميحواهد ساحته شودو
نقش مدل. نملیش عناصراصلي و رولبط موجود دریک نظام. فرایند. موجودیت. ساختار» انديشه و مانند
آن است.
موارد یادشده را ميتوان به صورتهای متعدد و درعین حال متفاوتي نمایش داد و مدلها خود از نظر
چگونگي نمایش عناصر و روابط موجود. مورد ارزيابي قرار ميگیرند (حريري 1383).
مدل بازیلبی اطلاعات عبارت است از مجموعهاي از دیدگهها یا بازنمونهاي منطقي مربوط به مدارک
موجود دریک مجموعه (مثلاً در یک پایگاه) و نيازهاي اطلاعاتي بیانشده کاربران که تحت چارچوبي
خاص با يكديكر ارتباط مي يابند و درقالب نتایج جستجو ارائه مي كردند.
صفحه 8:
چهار مولفه اصلی درهرمدل بازیابی
1. مجموعهاي از نمادهاي منطقي یا بازنمونهاي مربوط به مدارک موجود در مجموعهاي که به
شکل اصطلاحهاي نمایه در پایگاه ارائه میشود؛
2 . مجموعهاي از نمادهاي منطقي یا بازنمونهاي نيازهاي اطلاعاتي کاربران که به صورت عبارت
پرسش از سوي آنها به نظام ارائه ميگردد؛
3 _ چارچوبي نظري و مفهومي که درقالب آن. بازنمونهاي مدارک عبارتهاي پرسش و روابط آنها
مدلسازي ميگردد؛
A الگوریتم رتبهبندي در پایگاه که مدارک را براساس میزان تطابق نتایج بازيابي با عبارت پرسش.
صفحه 9:
# براي ایجاد یک مدل ابتدا بزنمونهاي مدارک (اصطلاحات نمايهاي) و نیاز اطلاعاتي کاربر مورد
توجه قرار ميگیرد.
سپس با دردست داشتن این بازنمونها. چارچوب مدلسازي آنها مشخص ميشود که
© درقالب آن, رتبهبندي نتایج بازيابي انجام پذیرد.
# هر يك از مدلهاي بازيابي داراي چارچوب خاص خود هستند و از نظريههاي متفاوتي براي
رتبهبندي و ارائه نتایج استفاده میکنند.
صفحه 10:
صفحه 11:
دسته بندی مدل های بازیابی اطلاعات
۱
A
مدل هاى
كلاسيك
صفحه 12:
صفحه 13:
صفحه 14:
Boolean Model 35: Joo
ست
#مدل بولي مدلي بسيار ساده است كه بر نظريه مجموعدها و جبر بولي
٩ ر آنجا که مفهوم محموعه از دیدگاه ریاضیات کاملا مشحص وروشن است» درک
مدل بولي نیز دشوار نیست.
08 Pa & 3 2 01 e
علاوه بر آن» عبارات جستجو که به صورت عبارات بولي بیان ميشوند مفهوم روشني
دارند.
با توجه به همین ويژگي ساده و قابل فهم. مدل بولي درسالهاي گذشته توجه
بيشتري را به خود جلب کرده و توسط بسياري از نظامهاي کتابشناختي تجاري
مورد پذیرش و استفاده قرار گرفته است.
صفحه 15:
#درمدل بولی. فرض بر این است که کلیدواژه مورد نظر کاربر ممکن است دو حالت
داشته باشد:
#الف) درمیان مدارک موجود درمجموعه (پایگاه) وجود دارد.
© ب) درمیان مدارک موجود نیست.
#به عبارت ديكرء از قاعده صفر و یک پيروي ميکند که مبتني بر منطق دودويي
است.
#هر عبارت پرسش در مدل بولى ميتواند سه عملگر را تحت پوشش قراردهد: «و».
(And, Or, Not) GR» 9 «Ly
صفحه 16:
سیر ساده است.
شمبتنی بر نظریه مجموعه ها 11360177 :561 و جبر بولی است:
# هر کلید واژه می تواند دو حالت داشته باشد( بود | نبود)
© ( 0 دلالت بر عدم عضویت و 1 دلالت بر عضویت)
صفحه 17:
#زبان جستجو در اين نرم افزار بر پایه جبر بولین بنا شده است.
#عملكرهايى كه در اين نرم افزار مورد استفاده قرار مى كيرند عبارتند از:
CAND ~
OR (+) *
NOT (4) *
7 ( #): همجواری ( تقدم و تاخر دو واژه در نتیجه جستجو موثر می باشد)
(S) بریده نویسی
7 (۱): جستجوی واژه ها در یک فیلد
7 (-): جستجوی حدفاصل دو واژه ( جستجو در رده ها و سال نشر)
صفحه 18:
Fuzzy Model (36 Joo
تسلطبه نظربه هاي فازي و محاسبات آن انسكي دشوار بوده و نیاز به
درک مفاهیم پیچیده رباضي دارد.
به همین دلیل لازم است که پژوهشگران لین عرصه با مفاهیم و
محاسبات رياضي کاملا آشنليي داشته و با درک صحيحي از اين
مقوله به حل مسائل موجود در رشته با کمک منطق فازي مبادرت
ورزند.
صفحه 19:
لد
منطق فازي در سال 1965 توسط يك دانشمند ايراني
به نام لطفي علي عسكرزاده كه جامعه بين الملل به نام
پروفسور لطفي زاده از او ياد مي كند + ارائه شد.
وي طي یک مقاله علمي کلاسیک که در سال 1965 به
چاپ رسید مفهوم "مجموعه فازي" را که اساس تئوري
تجزیه و تحلیل سيستمهاي پیچیده است. معرفي نمود
كه در آن "زبان طبيعي" به جاي متغيرهاي عددي براي
تشريح رفتار و عملكرد سيستمها به كار مي رود.
صفحه 20:
مفاهیم نادقیق یا مبهم بسیاری در اطراف ما
وجود دارد. منطق کلاسیک يا ارسطویی تنها دو حالت برای
موقعیت های مختلف قائل است:
gy سياه و سفيد » صفر و یک
“هوا خوب است”
منطق یا تتوري فازي "یک نوع منطق است که روش منطق فازی نقاط
هاي نتیجه گيري در مغز بشر را جایگزین مي ,خاکستری را می بیند
P38
صفحه 21:
#نظریه مجموعه فازی به بازنمایی دسته هایی می پردازد که حدودشان به خوبی
#ايده اصلى . همايند كردن يك تابع عضويت 202061011 متطعتط0۷6) با
عناصر آن دسته است.
©
تابع مقدارهايى بين صفر ويك را به خود مى كيرد.
#صفر نشان دهنده عدم عضويت در دسته و
ایک نشان دهنده عضویت کامل است.
#مقدارهای عضویت بين صفر و یک. نشانگر عناصر حاشیه ای آن دسته است.
صفحه 22:
صفحه 23:
منطق فازی در کتابداری و اطلاع رسانی
© مفهوم فازي اولین بار با عبارت "تثوري و هاي فازي" و در مقاله اي تحت
عنوان "جستجوي یک فایل در شرایط فازي" در سال 1975 و به زبان فرانسه در
دنياي کتابداري و اطلاع رساني مطرح شد.
#از مجموع 32 مقاله اي که در فاصله سال هاي 1975 تا 1990 با موضوع فازي
منتشر شده. 25 مورد آن به نقش و کاربردهاي منطق فازي در ذخیره و بازيابي
اطلاعات و استراتژی های جستجو اختصاص داشته است.
صفحه 24:
مفهوم ربط به دلیل نامشخص و نسبي بودنش یک مفهوم فازي است.
وقتی مدارک dy سیستم اضافه مي شوند. یک سلسله اصطلاحات به مدرک
اختصاص يافته و به هر اصطلاحي وزني داده مي شود كه درجه وابستكي أن
اصطلاح به مدرك را نشان مى دهد.
#در نظام فازي همان عملگرهاي بولي (و یاء نه) مورد استفاده قرار مي گیرند. اما
متكي بر "اجتماع" فازي. "اشتراك” فازيء و "به جز" فازي.
صفحه 25:
می توان نتیجه كرفت كه مدل فازى
© مدل مبتنى بر اصطلاحنامه
© اين مدل درسال 1993 از طرف آقاى دكتر لطفى زاده مطرح كرديد.
© طبق اين نظر حد و مرز مجموعه ها مشخص و معين نيست.
© دامنه عضويت دراين مجموعه بود يا نبود نيست بلكه از 0 به معناى عدم عضويت تا 1 به معناى عضويت
کامل است.
* استفاده از عملگرهای ضرب مجموعه هاء جمع دو یا چند مجموعه فازی. تفاضل دو یا چند مجموعه فازی
* ابتدا میزان عضویت یک کلید واژه دریک مدرک تعیین می شود. سپس
© با اعمال عملگرهای سه كانه ارتباط بين جند مجموعه يا مدرک نیز تعیین می شود که درنهایت به رتبه
بندی نتایج جستجو می انجامد.
* مدل فازی با استفاده از اصطلاحنامه؛ رابطه بین واژگان موجود در عبارت پرسش کاربر و مدلرک موجود در
مجموعه را تعیین می کند.
* ربط مدارک بازیابی شده درمدل فازی بیش تر از مدل بولی است.
صفحه 26:
Vector Model مدل برداری
در این مدل ابتدا کليدوژههاي موجود در هر يك از مجموعههاي عبارت پرسش و
بازنمون مدارک موجود در پایگاه. وزندهي ميشوند؛
سپس این وزن ها براي تعیین میزان مشابهت بین عبارت پرسش و مدارك به روي يك
بردار منتقل مي شوند که
© ضلع عمودي بردار نشان دهنده وزن مدارك و ضلع افقي نشان دهنده وزن عبارت
پرسش است و ازطریق محاسبه کسینوس زاویه بوجود آمده بین وزن بازنمون هاي
مدرك و کلمات پرسش میزان این مشابهت مشخص مي شود.
documents
query
صفحه 27:
در این مدل. مدارك و پرسوجوها به صورت بردارهايي در فضايي سه بعدي در نظر گرفته ميشوند که هر بعد با
مدخلي حر مايه مقلوب متدائار سد
* مثلاً مدرك (1 و پرس و جوي () در شکل برداري به صورت
Q= (ql, q2, q3,....qn) 5 D= (d1, d2, d3, .... dn)
بیان ميشود که 13 مجموع اصطلاحات نمايهاي و هر کدام از مقادیر داخل پرانتز وزن هر اصطلاح بوده كه بيانكر
اهمیت اصطلاح است.
Doc لها Doc 4
صفحه 28:
از آنجليي که تغییرات کسینوس بین مقادیر | تا صفر مي باشد هرجه ميزان لين تشلبه به
يك نزدیکتر باشد نشانه مرتبط تر بودن مدارك بازيابي شده با عبارت پرسش مي باشد.
گبه این ترتیب مدارك بازيلبي شده براساس درجه مشابهت با عبارت پرسش رتبه بندي مي
شوند.
#درلین مدل چنانچه مدارك تا حدودي نیز با عبارت پرسش مشابهت داشته باشند بازيابي
مي شوند
نتایج ارائه شده توسط این مدل بسیار دقیق تر از نتایج مدل بولی است.
Jae gal © قادراست با اخذ يك مقدار مشخص به عنوان آستانه مشابهت مورد نظر کاربره
فقط مداركي را بازيابي کند که مورد نظر کاربر باشند.
صفحه 29:
مهمترین ویژگی های مدل برداری
گوزن دهی غیر دودویی به کلید واه های موجود در عبارت پرسش کاربران و مدارک
موجود درمجموعه.
؟ ابتدا کلید واه های موجود در عبارت پرسش کاربران با بازنمون مدارک موجود در پایگاه
وزن دهی می شونده
۰
سپس این وزن ها برای تعیین میزان مشابهت بین عبارت های پرسش و مدارک مورد
استفاده قرار می گیرد و در نهلیت مدارک بازیلبی شده بر اساس درجه مشابهت با عبارت
پرسش رتبه بندی می شوند.
۰ sere ts aay eas ela alee tlese boeasiars®
پذیرد.( تعداد بسامد ظهور واژگان نمایه ای تقسیم بر تعداد کل واژگان
صفحه 30:
مهمترین مزایای مدل برداری
وزن دهی و ارائه برداری از اين وزن ها درکلید واه های پرسش کاربر و مدارک موجود
موس وان شاه ین و مسموعه رای که
* جون از راهبرد تطلبق نسبی به جای تطلبق مطلق استفاده می کند(به لین معنی که
مدارک تا حدودی مشلبه با عبا
سش نیز بازیلبی می شوند) کاربر می تولند به
ین منابع مرتبط دسترسی داشته باشد.
رتبه بندی مدارک بر اساس میزان تشلبه با عبارت پرسش امکان قضاوت بهتر نتایج
ارائه شده را به کاریر مي دهد.
ات لط رك
ده درآن بيشتر است. کار برد ان ریاد
صفحه 31:
de® ُردار فضايي نشاندهنده ارزش هر بردار و اجزاي آن نیست.
* محاسبه دقیق بردار برآیند براي تمامي بردارها عملي نیست. چون مقدار دقیق
بردارها لازم است.
© ارتباط و وابستگي لغات در این روش نشان داده نميشود.
صفحه 32:
Probabilistic Model Juz>| Joo
سس 010 ا سوسس
#مدل احتمالى درسال 1976 توسط «رابرتسون» و «اسيارك» مطرح شد
© اين مدل تلاش ميشود مسائل بازيابي را درجهارجوب احتمالات حل
کنند؛ با اين يبشفرض كه وقتي كاربر يرسشي را ارلئه ميكند. مجموعداي از
مدارک وجود دارد که دقیقاً به آن پرسش مرتبط است و این مجموعه به
مجموعه آرمانی معروف است.
#فرایند پرسش - «فرایند تشخیص ويژگيهاي یک مجموعه آرماني پاسخ»
صفحه 33:
#مدل احتمالی» پرسش کاربر را اغذ میکند. استمال ربط و عدم ربط مدارك
موجود درمجموعه به پرسش کاربر را حدس ميزند و با اخذ بازخورد از کاربره
نتایج نهایی را ارائه میدهد.
مزیت:
#مدارك بر اساس احتمال ارتباط آنها با پرسش کاربر, به شکل از بالابه پایین
رتبهبندي ميشوند.
صفحه 34:
1 نیاز به حدس در جداسازی اولیه مجموعههای مرتبط و نامرتبط؛
2. عدم توجه به فراواني واژگان نمايهاي درون یک مدرك؛
3 پذیرش فرض استقلال براي واژههاي نمايهاي.
صفحه 35: