صفحه 1:
eee] م
7
تبيه كننده : يوحنا قديمي - علی عباسی - کاوه پاشايي
صفحه 2:
مقدمه
1 een ere
جرياني وحشتناك از اطلاعات مواجه كرده است.
۴ تقریباً هر موضوعي مي تواند بیاد آورده شود , يکي مي تواند
Fer ecene epee celiac Ps Is ACG 1۱
دسترس مي شوند را بيدا كند, تنظيم كردن كاربران شخصي
كه ليستي از مجموعه ركورد هايشان را , براي شركت هاي
ل ا ا ل
صفحه 3:
مقدمه
ae eeaeS eae ECC ROD
Uh Speen eper > | EF ea nce ere
۳۹
9
*مرتب كردن
ل ل
VY
صفحه 4:
کنکاو وب
eae ا
#كاربردي از تكنيك هاي كنكاو داده براي متن بي ساخت يا نيمه
on) ا ares Recon Peyeeigy ريك
#کنکاو ساختار وب
#استفاده ساختار ابر ييوند وب همانند يك منبع اطلاعات (اضافىي)
Pete” استفاده وب bs
~ ل 0ك Cbd
صفحه 5:
خواص گراف وب
*وب ممكن است به عنوان يك كراف ( مستقيم) با مستندات به
عنوان كره ها و ابرييوند ها به عنوان لبه ها مشاهده شوند
* درجه هاى وارده ( تعداد ييوندهاى ورودى ) و درجه هاى
خارجه ( تعداد پیوند هاي خروجي ) از يخش قانون قدرت
۳9 5 ۱۷-۲ : درجه هاي وارده
CCS Ee و۳ ا
صفحه 6:
خواص گراف وب
OI een ND | Ys | Penne NEL
ees Rei roa ee ERS cr Cyrene GLO Us Reece
0 pees Px pepe aN
تكنيك ايندكس كذاري را بياده سازي مي كند
* اجازه دسترسي سريع به ابر ييوند صادر شونده و هم وارد
CN et ROSE NUT On
#كراف داعلى ©,© 86089 از حافظةءرا ير كرذ وو يكن
Can hr er recmes ا ل 0
دقيقه طول كشيد.
صفحه 7:
خواص گراف وب
Rie ror ere ee nearer
ها , بند قوس بزرك , با يك قطعه هسته وصل شده قوى ((85000) 56
Ri CT Buy eecey ا ا ا ا ال 0 0
ESC ا ا ا ا 0 2
eee 1 0
© ديكري شامل صفحاتي است كه از 0000© مي تواند برسد( بخش
خارجي
لوله هايي وجود دارد که رسیدن به بخش خارجي از بخش داخلي بدون
p ERTS TPTS ESIC OOF SS Smee 19
ك2 داخلي یا داخل تا خارجي eyed
اجزاهاي ديكر هدايت مى كند.
صفحه 8:
خواص گراف وب
1 EES ECS peor On ا
yee ا TLE)
* کروکی یک نمودار از این ساختار , که گاهی اوقات فریبنده است به
خاطرآینکه نقش برجسته بخش داخلي « خارجي ,و ۳06
يايه اندازه پایه گذاري مي شود
ات ار هاي ديگري با یک شکل مشابه وجود دارد an لت
۲ الدارة سيد( La Aree Omar:
(OCW CS pec. 30 شوند كه با
, این است که چندین اجزاء گسسته وجود دارد. در حقیقت er
ل ا ا تصادفي انتخاب شده وجود داشته
0000
صفحه 9:
خواص گراف وب
CRUE
ا 00
Ce eeeeeaeee 0[
RC at ROS Re are Rare
جستجو © كه همجنين توسط موتور جستجو 9) ايندكس
كذاري مي شود مي تواند روي همرفته به عنوان يى تخمين
برای ذرصد صفحات ایندکس گذاری شده توسط () استفاده
5 ۳
صفحه 10:
0 yx
رک 1۱
شده توسط كلماتي كه در أن ها ظاهر مي شوند متمركز مي كنقد ,
2211010 اطلاعات شامل ابر پیوند هايي مي شوند که به
صفحه اي كه در ابتدا تشخيص داده شده اند اشاره مي كند .
متن هاي ارجاعي صفحات ماقبل ييش از اين توسط كرم وب جهاني ,
يكي از اولین موتورهاي جستجو و خزنده وب .
| ل
1 eae ae
See mye een cere te oeerS eb ned ROME Coa
بهره برداري کرد
صفحه 11:
0 yx
Sree Ree eR erry See cence ihe
۳ ب-ب۰
هم اين اطلاعات مي تواند به طور سودمند مرتب كردن نتايج
۱ a ee OSs)
درجه وارده به تنهايى اگر چه , اندازه خيلي کم از اهمیت است *
000 eye Meee Leone SReeEe ae]
محتوي صفحه اشاره شده ارتباط برقرار شود. 3
صفحه 12:
0 yx
۳ Seer eReCe bed
BRU nee a nes Re CEC tL)
Reece Tele a ont aoa are
اطلاعات مفيد درباره عنوان يرس و جوها مي شود
اس[
۱ or
Se ge ECR PSPS Be nies Eee
خوب شامل شامل اشاره گرهايي به منبع هاي صحيح و موثق خيلي
۳ nC Ener r re ioe ets
8 خوبي 0 ۱
صفحه 13:
0 yx
* كلينبرك ييشنهاد استفاده آزمايشى كردن از اين ارتباط را توسط وابسته
کردن هر صفحه « به یک 00001 ل 0
موثق (0)2) کرد , که به طور تکرار کننده محاسبه مي شود
reason Ye ares ean UEC CCRC Be BEEPS TEC A LETTS
وجود دازذ: اين محاسبات به:باصظلاح زيركراف متموكز شذه.:وب هذايث
3 ا cece US ل ee ne
000 Renny ere i
* درجه هاي هاب IG CASI eee Sones weer)
0 2008 -(0000) مدا دهي اوليه و طبيعي مي شود rent)
ee on) ا با يك جمع مي شوند
صفحه 14:
non وت
[d] Raxwoud Kosdu, Leadth @brher|, ‘Orb Ortay Reseach: © Guvey’
3 BOODOM everer, Beka, POO G1WKOD
(Cr ae em PESTO
[eK ere RRO nee en Cre rv Oe aU eer seme ene
(Oe eat cake COL ek Oe San a eC Se
ee ee ea eee ee eee LOD
۱ ا ا aa
Fe RN eee de eee ee) een eer a
een
1 eater ROR RON ROU Dooce RUT Came rats L0e
CO RO LU ce ROS Leto MENU RO ev Rges Renee
CMe UNS te (eral ene MONO en
\
کنکاو وب ( ) Web Mining
استاد :جناب آقاي دکتر رهگذر
تهيه کننده :يوحنا قديمي -علی عباسی -کاوه پاشايي
مقدمه
ظهور وب جهاني ( )WWWکاربران کامپيوتر خانگي را با
جرياني وحشتناک از اطالعات مواجه کرده است.
تقريباً هر موضوعي مي تواند بياد آورده شود ,يکي مي تواند
تکه هاي اطالعات را که توسط ديگر شهروندان اينترنت قابل
دسترس مي شوند را پيدا کند ,تنظيم کردن کاربران شخصي
که ليستي از مجموعه رکورد هايشان را ,براي شرکت هاي
خاص Hکه در وب تجارت مي کنند مي فرستند
مقدمه
کاربران وب به کمک عامل هاي نرم افزاري مصنوعي توانايي
حريف شدن با فراواني اطالعات قابل دسترس را دارند.
عامل ها :
پيدا کردن
مرتب کردن
فيلتر کردن اطالعات قابل دسترس
کنکاو وب
کنکاو محتوي وب
کاربردي از تکنيک هاي کنکاو داده براي متن بي ساخت يا نيمه
ساخت يافته ,به طور نمونه مستندات HTML
کنکاو ساختار وب
استفاده ساختار ابر پيوند وب همانند يک منبع اطالعات (اضافي)
کنکاو استفاده وب
تحليل تقابل کاربر با يک سرور وب
خواص گراف وب
وب ممکن است به عنوان يک گراف ( مستقيم) با مستندات به
عنوان گره ها و ابرپيوند ها به عنوان لبه ها مشاهده شوند
درجه هاي وارده ( تعداد پيوندهاي ورودي ) و درجه هاي
خارجه ( تعداد پيوند هاي خروجي ) از پخش قانون قدرت
پيروي مي کنند .
مقدار : inγ= 2.45درجه هاي وارده
مقدار= : outγ 2.1درجه های خارجه
خواص گراف وب
داده ها را از جستجو در آلتاويستا ( سايت جستجو) با 2003
ميليون URLو 1466ميليون لينک ,و ساختار گراف زيرين
را در يک سرور اتصال ذخيره کردند ,که يک مستند کارامد
تکنيک ايندکس گذاري را پياده سازي مي کند
اجازه دسترسي سريع به ابر پيوند صادر شونده و هم وارد
شونده يک صفحه را مي دهد.
گراف داخلي GB 9.5از حافظه را پر کرد ,و يک
جستجوي سطح اول که به 100ميليون گره رسيد در حدود 4
دقيقه طول کشيد.
خواص گراف وب
نتيجه اصلي شان يک تحليل از ساختار گراف وب است که بر طبق آن
ها ,بند قوس بزرگ ,با يک قطعه هسته وصل شده قوي (56 )SCC
ميليون صفحه در وسط ,و دو قطعه با 44ميليون صفحه در تمام
کنارها ,يکي شامل صفحاتي است که SCCمي تواند برسد ( بخش
داخلي )
ديگري شامل صفحاتي است که از SCCمي تواند برسد( بخش
خارجي
لوله هايي وجود دارد که رسيدن به بخش خارجي از بخش داخلي بدون
پاس کردن از طريق SCCرا اجازه مي دهد ,و پيچک هاي بسياري ,
که به خارج از مجموعه داخلي يا داخل مجموعه خارجي بدون ارتباط با
اجزاهاي ديگر هدايت مي کند.
خواص گراف وب
چندين مجموعه هاي کوچکتر وجود دارد که نمي تواند از هر نقطه اي
در اين ساختار رسيده شود.
کروکي يک نمودار از اين ساختار ,که گاهي اوقات فريبنده است به
خاطر اينکه نقش برجسته بخش داخلي ,خارجي ,و SCCفقط بر
پايه اندازه پايه گذاري مي شود
ساختار هاي ديگري با يک شکل مشابه وجود دارد ,اما قدري کوچکتر
از اندازه هستند ( يعني ,لوله ها ممکن است شامل اجزاء شديداَ متصل
ديگر شوند که با SCCفقط در اندازه فرق دارند)
نتيجه اصلي اين است که چندين اجزاء گسسته وجود دارد .در حقيقت ,
يک منطقه ميان دو صفحه به طور تصادفي انتخاب شده وجود داشته
باشد فقط حدود 0.24است
خواص گراف وب
احتمال اينکه يک صفحه توسط موتور جستجو Aايندکس
گذاري شود مستقل است از احتمال اينکه همان صفحه توسط
موتور جستجو Bايندکس گذاري شود
درصد صفحات در مجموعه نتيجه يک پرس و جو براي موتور
جستجو Bکه همچنين توسط موتور جستجو Aايندکس
گذاري مي شود مي تواند روي همرفته به عنوان يک تخمين
براي ذرصد صفحات ايندکس گذاري شده توسط Aاستفاده
شود.
جستجو وب ( )WEB SEARCH
از آنجاييکه واسط هاي پرس و جو مرسوم در مستندات ايندکس گذاري
شده توسط کلماتي که در آن ها ظاهر مي شوند متمرکز مي کنند ,
پتانسيل بهره برداري اطالعات شامل ابر پيوند هايي مي شوند که به
صفحه اي که در ابتدا تشخيص داده شده اند اشاره مي کند .
متن هاي ارجاعي صفحات ماقبل پيش از اين توسط کرم وب جهاني ,
يکي از اولين موتورهاي جستجو و خزنده وب .
اسپرتاس يک طبقه بندي نوع هاي مختلف ابر پيوند ها را معرفي کرد
که مي تواند در وب پيدا شود
چگونه پيوند ها مي توان از اطالعات مختلف تکليف هاي وابسته در وب
بهره برداري کرد
جستجو وب ( )WEB SEARCH
راه ميانبر اصلي ادراک بود که محبوبيت و بنابراين اهميت
صفحه تا حدي با تعداد پيوندهاي وارده مرتبط مي شود ,آن
هم اين اطالعات مي تواند به طور سودمند مرتب کردن نتايج
پرس و جو موتور جستجو استفاده شود.
درجه وارده به تنهايي ,اگر چه ,اندازه خيلي کم از اهميت است
اما صفحات زيادي متناوباً اشاره مي شوند بدون اينکه به
محتوي صفحه اشاره شده ارتباط برقرار شود.
جستجو وب ( )WEB SEARCH
لينبرگ پيشنهاد کرد که دو نوع از صفحات هستند که مي
تواند براي يک پرس و جو مناسب باشد :
منبع هاي صحيح و موثق ( )authoritiesصفحاتي هستند که شامل
اطالعات مفيد درباره عنوان پرس و جوها مي شود
در حالي که هاب ها شامل اشاره گرهايي به منابع اطالعات خوب
است .
هر دو نوع از صفحات به طور اختياري وصل مي شوند :هاب هاي
خوب شامل شامل اشاره گرهايي به منبع هاي صحيح و موثق خيلي
خوبي است ,و منبع هاي صحيح و موثق خوب توسط هاب هاي
خيلي خوبي اشاره مي شوند
جستجو وب ( )WEB SEARCH
کلينبرگ پيشنهاد استفاده آزمايشي کردن از اين ارتباط را توسط وابسته
کردن هر صفحه xبه يک منبع هاب ) H(xو يک منبع صحيح و
موثق ) A(xکرد ,که به طور تکرار کننده محاسبه مي شود
در اينجا ( )x,yبه معني اين است که يک پيوند از صفحه xبه صفحه y
وجود دارد .اين محاسبات به باصطالح زيرگراف متمرکز شده وب هدايت
مي شود ,که توسط افزودن نتيجه جستجو پرس و جو هاي مرسوم با
تمام صفحات ماقبل و مابعد فراهم مي شود
درجه هاي هاب و منبع هاي موثق وصحيح به طور يکسان با
A0(x)=H0(x)=1.0مقدار دهي اوليه و طبيعي مي شود بدين
منظور آن ها قبل از هر تکرار با يک جمع مي شوند
منابع و مراجع
[1] Raymond Kosala, Hendrik Blockeel, ‘Web Mining Research: A Survey’
, Celestijnenlaan 200A, B3001 Heverlee, Belgium, ACM SIGKDD
Explorations, July 2000.
[2] R. Cooley, B.Mobasher and J.Srivastava, ‘Web Mining Information and
Pattern Discovery on the World Wide Web’ , Information Gathering from
Heterogeneous Distributed Environments, December 2001.
[3] Jiawei Han Kevin, Chen-Chuan Chang, ‘Data Mining for Web
Intelligence’, University of Illinois at Urbana Champaign , November
2002.
[4] Amir H. Youssefi, David J. Duke, Mohammed J. Zaki, ‘Visual Web
Mining ‘ , WWW2004, May 17–22, 2004, New York, New York,
USA. ACM 1-58113-912-8/04/0005.