تجزیه و تحلیل اطلاعات

مدل‌ها و الگوریتم‌های بازیابی

صفحه 1:
بسم الله الرحمن لرحیم عنوان ارائه مدل ها و الگوریتم های بازیابی استاد گرامی دکتر عزیز هدایتی ارائه دهنده رعنا عبدالثه زاده

صفحه 2:
سس سر( لج #به ساده ترین سخن. ذخیره و بازیابی اطلاعات: فعالیت‌هایی که برای تحلیل و سازماندهی مدارک و منابع صورت می‌گیرد ذخیره ‎le Mb!‏ و تلاش‌هایی که برای یافتن يك يا جند مد رك از ميان انبوه مدارک ذخیره شده انجام می‌شود بازیابی اطلاعات نام دارد. نظاء‌هایی که این جریان‌ها در آنها روی می‌دهد نظاء‌های ذخیر» و بازیابی اطلاعات خوانده می‌شود. نظام‌های ذخیم» و بازیابی اطلاعات معمولا به منظور دسترس‌پذیر کردن مجموعه‌ای از منابع اطلاعاتی بررای استفاده کننده‌ی که مایل به کسب این اطلاعات است طیراحسی ee

صفحه 3:
مقدمه ... ادامه سسس 0 لج ©اطلاعاتى كه در نظامهاى ذخيره و بازيابى اطلاعات ذخيره موشود يا صرفاً شامل داده‌های کتابشناختی استه مانند مشخصات کتاب‌هاء اسناد و مدا رک» و مقاله‌های محلات؛ پا اصل مدرک است که همراه مشخصات آنن عرضه می‌شود. حالت ایس پایگاه داده‌های تماع متن نام دارد. e هدف هم نظام ذخیره و بازیابی اطلاعات آسن است که در اسسرع وقت بیشترین اطلاعات مرتبط با نیاز استفاده کننده را آن‌طور که در درخواست وی دکس شده در اختیار بگذارد.

صفحه 4:
ابي اطلاعات به سازماندهي» ذخیره سازي» بازيابي و نمایش اطلاعات مربوط است. #سيستمهاي بازيلبي اطلاعات با هدف فراهم آوردن زمينة لازم براي پاسخگويي به جستجوهاي كاربر از طريق ‎١‏ رجاع به مدارک مربوط. طراحي مي‌گردند. © در جنين محيطيء مجموعداي از مدارك مانند كتابهاء مقالههاء گزارشهاي اتي و... وجود دارد. به اضافه گروهي از کاربران. ‎jl ©‏ اطلاعاتي کاربر در یک زمان خاص مي‌تواند شامل یک یا چند مدرک باشد. ‎ ‎

صفحه 5:
فرایند بازیابی خاب مدارک مرتبط تسین میزان ربط مذا رگ به پرسش, #نمايش مدارك منتخب به كاربر #اخذ بازخورد كاربر #اصلاح نتايج #ارائه راهنمايى و يا ييشنهادهاى بيشتر #اتمام بازيابى

صفحه 6:
ساختار آزمايشي و موقتي و براي آزمون در شرایط مشابه واقعي به کار برده مي شود. استفاده از از مدل باعث مي شود که بتوان ن در مقیاس کوچك. اجزا و متغیرها را ارائه کرد و با تجزیه و تحلیل شرایط پیچیده اي که در اندازه واقعي انجام لن ممکن نیست. به صرفه جويي هاي اساسي در انجام طرح دست ‎ak ae‏ فرضیه هاي قابل تحقیق. آزمون پذیر و خاصي به وجود مي آیند که از طریق ‎el‏ تصمیم ها و شرایط بدون عمل رن در شرایط واقعي حاصل مي 0 (مزینانی,1370). . در مجموع مدل ها امکان اندیشیدن در خصوص مسائل و مشکلات را فراهم می سازند. آنها ابزارهای اندیشه اند و از رکود و ایستایی پيشگيري مي کنند (ویلسون).

صفحه 7:
مدل های بازیابی اطلاعات کر مفیل وانه «مدل» در واده‌نامه ویستر آمده« تنامی مفروش براي توصیف ریاضی فادها ‎ose Goes‏ آمده همدل الکوبی اس برای جیری که ميحواهد ساحته شودو نقش مدل. نملیش عناصراصلي و رولبط موجود دریک نظام. فرایند. موجودیت. ساختار» انديشه و مانند آن است. ‏موارد یادشده را مي‌توان به صورتهای متعدد و درعین حال متفاوتي نمایش داد و مدل‌ها خود از نظر چگونگي نمایش عناصر و روابط موجود. مورد ارزيابي قرار مي‌گیرند (حريري 1383). ‏مدل بازیلبی اطلاعات عبارت است از مجموعه‌اي از دیدگهها یا بازنمون‌هاي منطقي مربوط به مدارک موجود دریک مجموعه (مثلاً در یک پایگاه) و نيازهاي اطلاعاتي بیان‌شده کاربران که تحت چارچوبي خاص با يكديكر ارتباط مي يابند و درقالب نتایج جستجو ارائه مي كردند. ‎ ‎ ‎ ‎ ‎

صفحه 8:
چهار مولفه اصلی درهرمدل بازیابی 1. مجموعه‌اي از نمادهاي منطقي یا بازنمون‌هاي مربوط به مدارک موجود در مجموعه‌اي که به شکل اصطلاح‌هاي نمایه در پایگاه ارائه می‌شود؛ 2 . مجموعه‌اي از نمادهاي منطقي یا بازنمون‌هاي نيازهاي اطلاعاتي کاربران که به صورت عبارت پرسش از سوي آن‌ها به نظام ارائه مي‌گردد؛ 3 _ چارچوبي نظري و مفهومي که درقالب آن. بازنمون‌هاي مدارک عبارت‌هاي پرسش و روابط آن‌ها مدلسازي مي‌گردد؛ ‎A‏ الگوریتم رتبه‌بندي در پایگاه که مدارک را براساس میزان تطابق نتایج بازيابي با عبارت پرسش. ‎ ‎

صفحه 9:
# براي ایجاد یک مدل ابتدا بزنمون‌هاي مدارک (اصطلاحات نمايه‌اي) و نیاز اطلاعاتي کاربر مورد توجه قرار مي‌گیرد. سپس با دردست داشتن این بازنمون‌ها. چارچوب مدلسازي آن‌ها مشخص مي‌شود که © درقالب آن, رتبه‌بندي نتایج بازيابي انجام پذیرد. # هر يك از مدل‌هاي بازيابي داراي چارچوب خاص خود هستند و از نظريه‌هاي متفاوتي براي رتبه‌بندي و ارائه نتایج استفاده می‌کنند.

صفحه 10:

صفحه 11:
دسته بندی مدل های بازیابی اطلاعات ۱ A مدل هاى كلاسيك

صفحه 12:

صفحه 13:

صفحه 14:
Boolean Model 35: Joo ست #مدل بولي مدلي بسيار ساده است كه بر نظريه مجموعدها و جبر بولي ‎٩‏ ر آنجا که مفهوم محموعه از دیدگاه ریاضیات کاملا مشحص وروشن است» درک مدل بولي نیز دشوار نیست. ‎08 Pa & 3 2 01 e ‏علاوه بر آن» عبارات جستجو که به صورت عبارات بولي بیان مي‌شوند مفهوم روشني‎ ‏دارند.‎ ‏با توجه به همین ويژگي ساده و قابل فهم. مدل بولي درسال‌هاي گذشته توجه بيش‌تري را به خود جلب کرده و توسط بسياري از نظام‌هاي کتابشناختي تجاري مورد پذیرش و استفاده قرار گرفته است. ‎ ‎ ‎ ‎

صفحه 15:
#درمدل بولی. فرض بر این است که کلیدواژه مورد نظر کاربر ممکن است دو حالت داشته باشد: #الف) درمیان مدارک موجود درمجموعه (پایگاه) وجود دارد. © ب) درمیان مدارک موجود نیست. #به عبارت ديكرء از قاعده صفر و یک پيروي مي‌کند که مبتني بر منطق دودويي است. #هر عبارت پرسش در مدل بولى مي‌تواند سه عملگر را تحت پوشش قراردهد: «و». ‎(And, Or, Not) GR» 9 «Ly‏

صفحه 16:
سیر ساده است. شمبتنی بر نظریه مجموعه ها 11360177 :561 و جبر بولی است: # هر کلید واژه می تواند دو حالت داشته باشد( بود | نبود) © ( 0 دلالت بر عدم عضویت و 1 دلالت بر عضویت)

صفحه 17:
#زبان جستجو در اين نرم افزار بر پایه جبر بولین بنا شده است. #عملكرهايى كه در اين نرم افزار مورد استفاده قرار مى كيرند عبارتند از: ‎CAND ~‏ ‎OR (+) *‏ ‎NOT (4) *‏ 7 ( #): همجواری ( تقدم و تاخر دو واژه در نتیجه جستجو موثر می باشد) ‎(S)‏ بریده نویسی ‏7 (۱): جستجوی واژه ها در یک فیلد 7 (-): جستجوی حدفاصل دو واژه ( جستجو در رده ها و سال نشر) ‎ ‎

صفحه 18:
Fuzzy Model (36 Joo تسلطبه نظربه هاي فازي و محاسبات آن انسكي دشوار بوده و نیاز به درک مفاهیم پیچیده رباضي دارد. به همین دلیل لازم است که پژوهشگران لین عرصه با مفاهیم و محاسبات رياضي کاملا آشنليي داشته و با درک صحيحي از اين مقوله به حل مسائل موجود در رشته با کمک منطق فازي مبادرت ورزند.

صفحه 19:
لد منطق فازي در سال 1965 توسط يك دانشمند ايراني به نام لطفي علي عسكرزاده كه جامعه بين الملل به نام پروفسور لطفي زاده از او ياد مي كند + ارائه شد. وي طي یک مقاله علمي کلاسیک که در سال 1965 به چاپ رسید مفهوم "مجموعه فازي" را که اساس تئوري تجزیه و تحلیل سيستمهاي پیچیده است. معرفي نمود كه در آن "زبان طبيعي" به جاي متغيرهاي عددي براي تشريح رفتار و عملكرد سيستمها به كار مي رود.

صفحه 20:
مفاهیم نادقیق یا مبهم بسیاری در اطراف ما وجود دارد. منطق کلاسیک يا ارسطویی تنها دو حالت برای موقعیت های مختلف قائل است: ‎gy‏ سياه و سفيد » صفر و یک ‏“هوا خوب است” ‎ ‎ ‏منطق یا تتوري فازي "یک نوع منطق است که روش منطق فازی نقاط هاي نتیجه گيري در مغز بشر را جایگزین مي ,خاکستری را می بیند ‎P38 ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎ ‎

صفحه 21:
#نظریه مجموعه فازی به بازنمایی دسته هایی می پردازد که حدودشان به خوبی #ايده اصلى . همايند كردن يك تابع عضويت 202061011 متطعتط0۷6) با عناصر آن دسته است. © تابع مقدارهايى بين صفر ويك را به خود مى كيرد. #صفر نشان دهنده عدم عضويت در دسته و ایک نشان دهنده عضویت کامل است. #مقدارهای عضویت بين صفر و یک. نشانگر عناصر حاشیه ای آن دسته است.

صفحه 22:

صفحه 23:
منطق فازی در کتابداری و اطلاع رسانی © مفهوم فازي اولین بار با عبارت "تثوري و هاي فازي" و در مقاله اي تحت عنوان "جستجوي یک فایل در شرایط فازي" در سال 1975 و به زبان فرانسه در دنياي کتابداري و اطلاع رساني مطرح شد. #از مجموع 32 مقاله اي که در فاصله سال هاي 1975 تا 1990 با موضوع فازي منتشر شده. 25 مورد آن به نقش و کاربردهاي منطق فازي در ذخیره و بازيابي اطلاعات و استراتژی های جستجو اختصاص داشته است.

صفحه 24:
مفهوم ربط به دلیل نامشخص و نسبي بودنش یک مفهوم فازي است. وقتی مدارک ‎dy‏ سیستم اضافه مي شوند. یک سلسله اصطلاحات به مدرک اختصاص يافته و به هر اصطلاحي وزني داده مي شود كه درجه وابستكي أن اصطلاح به مدرك را نشان مى دهد. #در نظام فازي همان عملگرهاي بولي (و یاء نه) مورد استفاده قرار مي گیرند. اما متكي بر "اجتماع" فازي. "اشتراك” فازيء و "به جز" فازي.

صفحه 25:
می توان نتیجه كرفت كه مدل فازى © مدل مبتنى بر اصطلاحنامه © اين مدل درسال 1993 از طرف آقاى دكتر لطفى زاده مطرح كرديد. © طبق اين نظر حد و مرز مجموعه ها مشخص و معين نيست. © دامنه عضويت دراين مجموعه بود يا نبود نيست بلكه از 0 به معناى عدم عضويت تا 1 به معناى عضويت کامل است. * استفاده از عملگرهای ضرب مجموعه هاء جمع دو یا چند مجموعه فازی. تفاضل دو یا چند مجموعه فازی * ابتدا میزان عضویت یک کلید واژه دریک مدرک تعیین می شود. سپس © با اعمال عملگرهای سه كانه ارتباط بين جند مجموعه يا مدرک نیز تعیین می شود که درنهایت به رتبه بندی نتایج جستجو می انجامد. * مدل فازی با استفاده از اصطلاحنامه؛ رابطه بین واژگان موجود در عبارت پرسش کاربر و مدلرک موجود در مجموعه را تعیین می کند. * ربط مدارک بازیابی شده درمدل فازی بیش تر از مدل بولی است.

صفحه 26:
Vector Model ‏مدل برداری‎ در این مدل ابتدا کليدوژه‌هاي موجود در هر يك از مجموعه‌هاي عبارت پرسش و بازنمون مدارک موجود در پایگاه. وزن‌دهي مي‌شوند؛ سپس این وزن ها براي تعیین میزان مشابهت بین عبارت پرسش و مدارك به روي يك بردار منتقل مي شوند که © ضلع عمودي بردار نشان دهنده وزن مدارك و ضلع افقي نشان دهنده وزن عبارت پرسش است و ازطریق محاسبه کسینوس زاویه بوجود آمده بین وزن بازنمون هاي مدرك و کلمات پرسش میزان این مشابهت مشخص مي شود. documents query

صفحه 27:
در این مدل. مدارك و پرس‌وجوها به صورت بردارهايي در فضايي سه بعدي در نظر گرفته مي‌شوند که هر بعد با مدخلي حر مايه مقلوب متدائار سد * مثلاً مدرك (1 و پرس و جوي () در شکل برداري به صورت ‎Q= (ql, q2, q3,....qn) 5 D= (d1, d2, d3, .... dn)‏ بیان مي‌شود که 13 مجموع اصطلاحات نمايه‌اي و هر کدام از مقادیر داخل پرانتز وزن هر اصطلاح بوده كه بيانكر اهمیت اصطلاح است. Doc ‏لها‎ Doc 4

صفحه 28:
از آنجليي که تغییرات کسینوس بین مقادیر | تا صفر مي باشد هرجه ميزان لين تشلبه به يك نزدیکتر باشد نشانه مرتبط تر بودن مدارك بازيابي شده با عبارت پرسش مي باشد. گبه این ترتیب مدارك بازيلبي شده براساس درجه مشابهت با عبارت پرسش رتبه بندي مي شوند. #درلین مدل چنانچه مدارك تا حدودي نیز با عبارت پرسش مشابهت داشته باشند بازيابي مي شوند نتایج ارائه شده توسط این مدل بسیار دقیق تر از نتایج مدل بولی است. ‎Jae gal ©‏ قادراست با اخذ يك مقدار مشخص به عنوان آستانه مشابهت مورد نظر کاربره فقط مداركي را بازيابي کند که مورد نظر کاربر باشند. ‎ ‎ ‎

صفحه 29:
مهمترین ویژگی های مدل برداری گوزن دهی غیر دودویی به کلید واه های موجود در عبارت پرسش کاربران و مدارک موجود درمجموعه. ؟ ابتدا کلید واه های موجود در عبارت پرسش کاربران با بازنمون مدارک موجود در پایگاه وزن دهی می شونده ۰ سپس این وزن ها برای تعیین میزان مشابهت بین عبارت های پرسش و مدارک مورد استفاده قرار می گیرد و در نهلیت مدارک بازیلبی شده بر اساس درجه مشابهت با عبارت پرسش رتبه بندی می شوند. ۰ sere ts aay eas ela alee tlese boeasiars® ‏پذیرد.( تعداد بسامد ظهور واژگان نمایه ای تقسیم بر تعداد کل واژگان‎

صفحه 30:
مهمترین مزایای مدل برداری وزن دهی و ارائه برداری از اين وزن ها درکلید واه های پرسش کاربر و مدارک موجود موس وان شاه ین و مسموعه رای که * جون از راهبرد تطلبق نسبی به جای تطلبق مطلق استفاده می کند(به لین معنی که مدارک تا حدودی مشلبه با عبا سش نیز بازیلبی می شوند) کاربر می تولند به ین منابع مرتبط دسترسی داشته باشد. رتبه بندی مدارک بر اساس میزان تشلبه با عبارت پرسش امکان قضاوت بهتر نتایج ارائه شده را به کاریر مي دهد. ات لط رك ده درآن بيشتر است. کار برد ان ریاد

صفحه 31:
‎de®‏ ُردار فضايي نشان‌دهنده ارزش هر بردار و اجزاي آن نیست. ‏* محاسبه دقیق بردار برآیند براي تمامي بردارها عملي نیست. چون مقدار دقیق بردارها لازم است. ‏© ارتباط و وابستگي لغات در این روش نشان داده نمي‌شود. ‎ ‎

صفحه 32:
Probabilistic Model Juz>| Joo سس 010 ا سوسس #مدل احتمالى درسال 1976 توسط «رابرتسون» و «اسيارك» مطرح شد © اين مدل تلاش ميشود مسائل بازيابي را درجهارجوب احتمالات حل کنند؛ با اين يبشفرض كه وقتي كاربر يرسشي را ارلئه ميكند. مجموعداي از مدارک وجود دارد که دقیقاً به آن پرسش مرتبط است و این مجموعه به مجموعه آرمانی معروف است. #فرایند پرسش - «فرایند تشخیص ويژگي‌هاي یک مجموعه آرماني پاسخ»

صفحه 33:
#مدل احتمالی» پرسش کاربر را اغذ می‌کند. استمال ربط و عدم ربط مدارك موجود درمجموعه به پرسش کاربر را حدس مي‌زند و با اخذ بازخورد از کاربره نتایج نهایی را ارائه می‌دهد. مزیت: #مدارك بر اساس احتمال ارتباط آن‌ها با پرسش کاربر, به شکل از بالابه پایین رتبه‌بندي مي‌شوند.

صفحه 34:
1 نیاز به حدس در جداسازی اولیه مجموعه‌های مرتبط و نامرتبط؛ 2. عدم توجه به فراواني واژگان نمايه‌اي درون یک مدرك؛ 3 پذیرش فرض استقلال براي واژه‌هاي نمايه‌اي.

صفحه 35:

جهت مطالعه ادامه متن، فایل را دریافت نمایید.
16,000 تومان