صفحه 1:
صفحه 2:
5
دانشگاه صنعتي امير كبير otal gh
بهينه سازى كشف اطلاعات از مستندات نيمهساختيافته XML
Optimizing Information Discovery
from Semi-Structured XML Documents
دانشجو
مینا ملكي
استاد راهنما
دکتر احمد عبداللهزاده بارفروش
!يهنن 1385
صفحه 3:
gta ER
ضرورت انجام پژوهش
هدف پژوهش
طبقه بندي مستندات
روش هاي وزن دهي ويژگي
روش وزن دهي ويژگي پيشنهادي ۳6066
روش وزن دهي ويژگي پيشنهادي ۵
سیستم طبقه بندي کننده مستندات نیمه ساختیافته 60
مشخصات بستر آزمايشگاهي پیاده سازي شده
نتایج ارزيابيهاي انجام شده
صاج حاحص ضاح حاص شاك
نتیجه گیری. دستاوردهای پروژه. پیشنهاد کارهای آبنده
مشاه سست هایهوشت.
مينا ملكي- بهيته سازي كشف اطلاعات از مستندات نيمه ساختيافته 20001 nO
صفحه 4:
fl ۱ @
اشرورت نجام يزوهض 0
4 ساختيافته ؟
مستندات نیمه ساختیافته با
]لت کیدزن ند
کشف خود کار اطلاعات ازمستندات نیمه ساختيافته ,21۷11
کشف خودکار دانشهاي جدید, الگوهاء
ارتباطات در مجموعه وسيعي از مستندات متن کاوی
ae ale خلاصه سازي
مس ههور IML sb Ss AS glo کي
صفحه 5:
بهبود كارايي طبقه بندي کننده
بهبود کشف اطلاعات از مستندات نیمه ساختیافته 20
۰ تشخیص معناي کلمات مبهم
221 70 تت اراد سس بان هشیر
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 RAT
صفحه 6:
fl
D={d, ...روت “ ِ =
C={G, O,..-Gyt تصميم گيري
1 رك
ay = 0 0 G © | aa 9 1
آذآ فازهاي طبقه بندي
۴ فاز آموزشي ساخت مدل با استفاده از مستندات آموزشي
© فار آزمايشي > استفاده از مدل بر روي مستندات آزمايشي
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 CT
صفحه 7:
پیش پردازش مستندات
# شاخص بندي مستندات
* تیدیل مستندات به برداري از کلمات تشکیل دهنده
۳ 7 * آستانه يابي تکرار مستندات (015)
انتخاب ويژگي (IG) tes oe? 8
* کاهش ایعد بردار کلمات ۰ **قدرت ويژگي (۳5) * روش هاي مبتني بر 1۳
IDE *#*روش هاي مبتني بر © Sa
2 7 وزن دهي ويزكي *
> تعیین میزان اهمیت. و قدرث کلمات انتخاب شنده در متمایز کزدن هر مستند از سایر مستندات
لق طبقه بندي مستندات **طبقه بندي کننده هاي بیزین
طبقه بندي مستندا *#نزدیکترین 16 همسایه (KNN)
© اعمال الكوريتم طبقه بندي بر روي بردار *درخت هاي تصميم گيري
*”شبكه هاي عصبي
** ماشين هاي بردارهاي يشتيبان (SVM)
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 RAT
كلمات انتخاب و وزن دهي شده مستندات
صفحه 8:
1 0 ا] الگوهاي آماري رخداد کلمات | با
eS. 6 | سیستم هاي خبره ما
8 إدرخت هاي تصميم كيري | )و همکارلن
2 | روش KOO بو و همكزلن
4 | الگوریتم اس اس
ارائه الكوريتم جديد 4 ا طبقه بندي کننده بیزین سا و همکزلن
Cn OAS ge alee | موز ]روش Obie erm] WEP yen
رجات ی 6 | شبكه هاي عصبي باس
OO | 1998 سیر
niga ge ail!
LCT 1040, میا ملکي-هینهسازي کشف اطلاعت از مستدات نیمه ساخیافته
صفحه 9:
fl @
oT)
بهبود روش وزن دهي ويژگي براي بالابردن كارايي طبقه بندي کننده
مستندات نیمه ساختیافته ,21
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 مسسمدسمد ممه he
صفحه 10:
fl @
tis هاي وزن دهي BD
افآ وزن دهي ويزكي
(ولا...رزلا") - ee dG 2 04:6 اكر
تعداد پيژگيهايمتمایز در کلمجموعة
+۷ وززههيپيژگي ,ا در مستند 0
أن روش هاي متداول وزن دهي ويژگي
© روشهاي مبتني بر 1۳
> تابعي از توزیع ويژگي در هر يك از مستندات
۴ روشهاي مبتني » IDF
< تابعي از توزیع ويژگي در مجموعه مستندات
# روش هاي بر اطلاعات طبقات
> تابعي از توزيع ويزكي در طبقات
deD
santa glo ges dCs)
AT 0861. مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته
صفحه 11:
ایده: افزایش وزن دهي ويژگي با افزایش فرکانس ويژگي در هر مستند.
ب يف8 - رط
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861
<b,
=the a =|? | اد
4,€vectoof d,
نام روش
۳
1
1+ 016, 0( ret
wah | a TOTES ATT
ape | Me =ITRE, ay =I
6 Wig = Sparc, dq) 2۳۲,۹۳۳ 153۵ | دوس 6
تسش
صفحه 12:
ایده: کاهش وزن ويژگي با افزایش ف رکانس ويژگي در مجموعه مستندات D
fal
=i لیم
10: Wy =idft;,, d;) OS EO
ree Wa =thidgft,, d) =tht,, d)*idht,, d)
: ___tfidtt,, d)
were 31 TS tid ft, Ay
اط| تعداد کل مستندات مجموعه ط
|(,۶)| تعداد مستنداتی از مجموعه ظ دارای ویژگی ۸
fal
santa glo ges dCs)
RAT 0841. أطلاعات از مستندات نيمه ساختيافته
مین كيت يهينة لوي “كد
صفحه 13:
ها روش ۲۳۳۳"
© سال 2005 توسط آقاي 1.810
|e بو rf{t,,¢;) =lo
المع مقاط إل
رسک
[(ره ,/۳2۷] تعداد مستنداتی از مجموعه 72 و طبقه ره دارای ویژگی »1
I
4+ تعدد مستداتی از مجموعد 0 و طبقه اى غير از طبقه ره داراى ويذكى genres EDs 0)
( مه ماد( مزاآلا
Whi = TFRR ty, dj) <
یه( من رل
ره طبقه مستند ,4
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 — AT
صفحه 14:
اه )© )© @
TFCRF
*: تعداد مستندات فاقد ويژگي > از كلاس ,©
: تعداد مستندات داراي ويژگي >« از كلاس ,©
> تعداد مستندات داراي ويژگي 5 از کلاس غیر و6
تعداد مستندات فاقد ويژگي > از كلاس غير ,©
وسسسسسسسسسسسس سس
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861
age
صفحه 15:
fl
(ast) TFCRE
ندا روش هاي وزن دهي ويزكي مبتني بر ”11(1
a+b+c+d
bee ‘|
|
|
N
idi =] =]
107 عع لماك
وزن در (1)- وزن 2 در (2) -وزن ۲ در (3) - وزن > در (4)
2 روش 7۳0/7
T(x q) =loq 2+?
2
»4 ©) © @
1 وزن > در (4)< وزن ع در (3) < وزن > در (1) < وزن > در (2)
ae ie)
صفحه 16:
(acts) TFCRE
روش وزن دهي ويژگي TFRF
وزن ۲ (الف) <وزن 2 (ب) < وزن 2 (ج) < وزن ۲ (د)
1
۱
5 .
سوک بیس fl روش وزن دهي ويزكي منطقي
\
QO © | افش
SD اراد سس بان هشیر
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 مسد وموم he
صفحه 17:
fl rox 17
| (زه |
لت = positiveRk, G)
|X) | 5
نت رو crfValué,,
negativeR&, c;) الفط ا
negativeRf, G) = Pinal
هگ
زعم کر
pe, )| تعداد مستندات طبقه ره لاره: 64 تعداد مستندات طبقه ره دارای ویژگی 4
لمم رانک سس مان بش
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT I
صفحه 18:
o
رن
ها مثال: طبقه بندي مقالات علمي برچسب گذاري شده ۱0
۴ فرکانس ويژگي در "عنوان " ! بار
۴ روش وزن دهي ويژگي 1
100+2+1=103 a
20939 روش
Sl مساله: تعیین میزان اهمیت (وزن) اجزاء مستند نیمه سا
راه حل 1: فرایند مکاشفه اي در تعیین میزان اهمیت هر جزء JLs Bir) 2004(
Sl راه حل2: طبقه بندي کننده متا (0۳۳۸۳) سال 2004 و 2006)
فا راه حل 3: روش وزن دهي ویژگی LOPE ادي (۳۳() در سال 2007)
le gine dala) موشمند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 I
صفحه 19:
a o
660, ایده: وزن دهي ويژگي براساس اطلاعات ساختاري مستندات نیمه ساختيافته Gl
HOD تکنيك: توجه به چگالی هر يك از اجزاء تشکیل دهنده مستند
مجتنومه أچزآه موجود: در مستییات :1/167 تجیوی: 9 يه...روا- ير
۷ تعداد کل مستندات مجموعه 1 N
(:© ررك مي ب 5 /1- (رع انال
08 مجموعه کل ویژگیهای متمایز در D له ماع 1د
x
(رء..4.)# 2 لآ ميانكين كل كلمات موجود در جزء ره مجموعه ظ
۵۱۳1۳۵6۵۸ < (4 1716 < با
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 سس
صفحه 20:
پردازشگر لو
واحد طبقه بندي کننده ماه ید
مستندات نیمه ساختيافته XO)
سس سح
ریت OT — (poy aoa cea ue
صفحه 21:
0030
زیر سیستم وزن دهی ویزقی
صفحه 22:
fl @
رتم پالنده ستندات
الآ وظیفه: در
افت و پالايش مجموعه مستندات 26۲ ورودي جهت تعیین مجموعه 1
20 ورودي: مستندات نیمه ساختیافته Gl
1( خروجی: مستندات پالایش شده 60 به عنوان مجموعه Gl
لآ مولفه ها
ae ""حاوي اطلاعات معنايي مهم نیستند.
v
© حذف کننده برچسب هاي غیر ضروري
© بررسي کننده ساختار مستندات /60(
# انتخاب کننده مستندات Sree) ous CAL XML
سس سح
ریت OT — (poy aoa cea ue
صفحه 23:
وظیفه: پردازش مجموعه مستندات 7 جهت استخراج ويژگي هاي مهم با حفظ
اطلاعات ساختاري
a
ورودي: مجموعه مستندات 1
a
خروجی: مجموعه مستندات 2 شاخص بندي شده
a
مولفه ها
۲ شاخص بندي مستندات و استخراج کلمات با حفظ اطلاعات مکانه
© تحلیلگر لغوي ساختاري VY
احذف اعداد و علائم نگارشي
سازنده پایگاه داده ۲ یکسان سازي شکل حروف
حذف کلمات توقف ريشه يابيشده
۴ پالاینده لغوي
Y gH ريشه يابي کلمات
ss ts)
la موشمند
عينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختياقت RFT AML
صفحه 24:
ژگی ها (دامم
قالب مستندات شاخص بندي شده
تعداد آتعداد
[vn 1 « ) اسسشتتس] | مستسا | | مت ) هه
كك
تعلاد
30 تعداد
سس ناسا تكرار ويذكي در برجسب
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 سس A
صفحه 25:
fl
GI وظیفه: کاهش ابعاد ويژگي هاي تشکیل دهنده مستندات و انتخاب بهترین آذ
SP Sho 3 5 3 تن
اث ورودي: جداول يايكاه داده حاوي ويژگي هاي شاخص بندي شده ساختاري
SI خروجي: ليستي از ويژگي هاي انتخاب شده
500
زمولند ها لاتعريف حد آأستانه بانين وبال
© فیلتر کننده ويژگي ها حذف ويژگي هاي نادر > اشکال املائي یا ذهن خلاق نویسنده (
حذف ويژگي هاي وافر > کلمه توقف حذف نشده
Saas 2ت
۳77 ل
OT — (poy aoa cea ue ریت
صفحه 26:
fl @
Sis ليرسيستم وزن
أذ وظيفه: تعيين ميزان اهميت هر يك از ويزكي هاي مستند در متمايز كردن آن
تند از ساير مستندات
اذ ورودي: برداري از ويزكي هاي انتخاب شده به همراه اطلاعات شاخص بندي
نها
6
a خروجي: بردار ويژگي هاي وزن دهي شده
آزمیشگاه سست ها
أطلاعات از مستندات نيمه ساختيافته .3081
صفحه 27:
a Oo
ده ريش 777909989
برنامه نويسي ۸0 با بیش از 6500 خط کد
تا پیاده سازي در چارچوب 0090 به
> 7 مستندات ورودي»0 GI
لمم رانک سس مان بش
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT I
صفحه 28:
fl
حه اه رت مدمه همه اه دح مد 65 ‘Sibisame Ficepacrick at aftuapacdgwa:edu, or Macy Grossien
سوریو و مس ce or coe ویک هگ
۳
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861
صفحه 29:
fl @
(Hines جوم سسا
SS! شامل 12107 مقاله علمی از 18 مجله ان
5 تا 2002 به فرمت 20
ات تاریخچه
انجمن کامپیوتر 16008 از سال
ها برچسب هاي مستندات fx
۴ برچسب هاي پایه
< حفظ برچسب ابتداانها و محتویات
عع ست 0
اپ اي کشت را هه بخ 200 هو
صفحه 30:
a
5 تا 2002 به فرمت 20
@
nei aD
شامل 12107 مقاله علمی از 18 مجله انتشارات انجمن کامپیوتر 16008 از سال
fl
= + | حت جاب | مراجع
لا برچسب هاي مستندات »9 a
ate he? [Epp 8 = إن | أدرس وب
برچسب هاي پایه name Ol pl syle | volo | *
معط | شماره جاب | Sods امحل کارا
۰ ب هاي حذف شدني 9 مت
> حن ۳ at | رافك Ste | ET math, hath
حذف برجسب ابتدااانتها و محتويات
ak i |i, footnote | درداتي
poetry | شمر ee
2h | super wee) | ab
| تریخ اروزه ماه سای a | ade
مس — Ee
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861
و
صفحه 31:
fl
شامل 12107 مقاله علمی از 18 مجله انتشارات انجمن کامپیوتر 10090 از سال
5 تا 2002 به فرمت 20
a
7 تاريخجه : دانشكاه «محاف<0 آلمان Gl
ل برجسب هاي مستئدات سد اماه مهاه 71060 | مد | ارات
item-bold, 5
item-both, ۰
tie] <p> | برچسب هاي پایه عسي مويو نفدي
itenrandash,itenvavaapara, item
roman, iene, هاي حذف شدني ey ©
بت ی ۳ 5
برچسب هاي تبدیل شدني ۴
تبديل برجسب ابتدا/ انتها مبدا به مقصدا تاد >
<emp> | nbediunicizht,sepsmalleaps,
te typewriter font
ی
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT
صفحه 32:
fl
[SI شامل 12107 مقاله علمی از 18 مجله انت
5 تا 2002 به فرمت 20
انجمن کامپیوتر 1600 از سال
a
اد" برچسب هاي مستندات few
۴ برچسب هاي پایه
۴ برچسب هاي حذف شدني
برچننب شروع مقاله
é روز ی
برچسب هاي تبدیل شدني 5 | اطلاعات تبتر
برچسب هاي ساختاري oe. | MTNA hdd
۳ ۳ ار
جذف برچسب ابتدا/ انتها ۱17 EL. BE. | 7
cde. انیس نا انا
mumerictbrace, bullet sie)
santa glo ges dCs)
TT 0861. مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته
صفحه 33:
49
مجموعه مستندات ووورمن 12720
te
td
tg
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861
ieee transactions on knowledge and data engineenng,
ieee transactions on pattern analysis and machine intelligence
ieee ttansactions on computers
ieee transactions on parallel and distributed systems
ieee transactions on visualization and computer graphics
ieee transactions on software engineering,
ivr te ayo
1
VA
صفحه 34:
پیاده سازي در چارچوب ۳۸( به زبان برنامه نويسي (4 با بیش از 6500 خط کد
> مستندات ورودي»1161 GI
ان الگوریتم طبقه بندي کننده GOD €
5
یشگا سستی های هوشت.
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT I
وسسسسسسسسسسسس —
صفحه 35:
ban Gl
102,۰۰۰ فحات plar gag leg
در فضاي بعدي که نمونههاي مثبت و
منفی را با بیشترین حاشیه از هم جدا کنند.
2
مزاياي 000:
© بهترین الگوریتم طبقه بددي مستندات
© قابلیت کار با تعداد ويژگي هايي زياد
* عدم تاثیر تعداد ويژگي بر كارايي الگوریتم
© يايداري
پیاده سازي توسط (10808000ما
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861
صفحه 36:
ازي شده
Gl پیاده سازي در چارچوب 0۳ به زبان برنامه نويسى 0 با بيش از 6500 خط كد
GI مستندات ورودي 1261 ->
أذ الكوريتم طبقه بندي کننده 600 >
)06( روش انتخاب ويژگي > آستانه يابي فرکانس مستندات SI
221 70 تت اراد سس بان هشیر
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT
صفحه 37:
fl @
DE 55088)
دلیل انتخاب
۰ سادگي
۴ هزینه محاسباتي پائین
۰ دقت و كارايي معادل بهترین روش هاي انتخاب ويژگي نظیر 16
@ مناسب در حوزه طبقه بندي مستندات
2
2
ایده: ظاهر شدن ویژگی در تعداد مستندات > بالا بودن ارزش معنايي ويژگي
یکدیگر (بعد از حذف کلمات توقف)
Sl راهکار: شمارش تعداد مستندات داراي ويژگي
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 HT
صفحه 38:
ان مستندات ورودي(0 12 >
2 الگوریتم طبقه بندي کننده GOO €
BI روش انتخاب ويژگي؟00) >
نا روشهاي وزن دهي ویژگی گمبتني بر ۳ +مبتني بر+ ۳00 + ۳ + 10
“LODE 1 5 1
a
تقسیم بتدي مستندات به نسبت 3/2 آموزشي و 3/1 آزمايشي
@
تعداد کلمات توقف بعد از تکمیل 1392 کلمه 00726 > کلمه توقف ريشه یابی شده
ماگنه اي کشت هت از نات WO es و
صفحه 39:
میانگین میکرو میانگین ماکرو
PCs) 3
id TP; 3
LPC) dpe ED
E
5 | رمعم +ررعم 2 ا
A
TRe)+TNe,) 1 1 ۳
LTR) 5 8 7 +13 + رعرع بجيجج- (كفه
Re = i 2 3 (رعد 7 5 7 7
___TAG) 1 a :
ل FNC,)) +“ متیر Pre,) “TR,)+ FAG,)
م مج را ير 7
are 66-7
a I | SEED
عبن ملكي يهينه سازي كشف اطلاعات از مستندات نيمه ساختيفته 2084 — ۳۳
صفحه 40:
اثیر فیلتر کردن ويژگي ها
# حد آستانه پائین ۶:10 کل تعداد مستندات
تعداد مستندات تعداد ويزكى ها es کاهش
مجموعه 10 بی فیلتر با فيلتر ویژگی ها
INN mut ۱۸3 ۱۸۰
YAY ۱3۹3 he 1۸۳
YAR Yast ۳:۳۶ vy.
, —————— NS
عينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختياقت HT AML
صفحه 41:
a Oo
قد ارزيابي روش وزن دهي ويژگي ۱,)9/۳6۴
أقآ 180 مستند ورودي
تا بدون فیلتر
دأ میانگین تعداد کلمات در هر برچسب و وزن برچسب
# عنوان: 5 ويژگي گوزن برچسب عنوان 2/0
۴ چکیده: 40 ویژگی > وزن برچسب چکیده 09/0
* کلمات کليدي: 11 ويژگي وزن برچسب کلمات كليدي 025/0"
۴ متن: 439 ويژگي گ وزن برچسب متن 002/0
۳77 ل
ih اس (poy aoa cea ue ریت
صفحه 42:
fl @
a ab ای ارييهاي انجام
LOVE ارزيابي روش وزن دهي ويژگي GI
* تعداد مستندات: 80.
۴ تعداد کل ويژگي ها:ژ
؟ بهترین مقدار ,مه
> :1 درصد
> :۱۸/۲ درصد
علو عتشييد
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT I
صفحه 43:
fl @
لابج ارزيابي هاي انجام شده مس
2 ارزیابی روش وزن دهی ویژگی ۱,۳6۴
ae ee سس[
oh —letee belie beg gg ی aaa
a SD سس بان هش
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 NT
صفحه 44:
TF
SD
0861. مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته
یت
ارزیابی روش وزن دهی ویژگی ۱,۳۵۴
صفحه 45:
* تعداد مستندات: 20
* تعداد ویژگی:16434
۴ :
> 73/0 يه ازاي 8000 ويژگي
:Gparck ©
> 7670 به ازاي 2000 ويژگي
Micro Average F,
4
‘a 5000 10000 ۰ 15088 ۰ ۰ 20000 ۰۰ ۵
سم of Features
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861
ae ie)
صفحه 46:
> 0 به ازاي 2000 ويژگي
TPCRE ©
> 933 /0 به ازاي 4000 ويژگي
10000 15000 2000 ۹
Number of Features
TERE
هد norm FIDE
هو سوت
سب[
عه
0
0۳0
Micro Average F,
SD اراد سس بان هشیر
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 مسد وموم he
صفحه 47:
49
202000 تعداد مستندات بر روى روش st Sl
معبارهای
101
TFRF
we
مانگین
ماكرو
A
sare
saree
۳-1
bite | Sie مانگن
مكرو | ميكرو | ماكز | ميكرو
»م | ۲ | | me
sa an
و | | carer | arse | arr
حصي | حي | var [eases | حم
مياتكين | مبانگین a
میکرو | ماکرو میکرو
مام Re
ادليه | لمحي | دحي | تحني | كريد
sae | حب | vas [vas [sve
یی | ومقي. | جمد | حير | ند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861
arr
۳
wr
aan
arene
صفحه 48:
ان تاثیر فیلتر کردن ويژگي ها بر روش ۳6۳066۴"
معیارهای
تعداه کر اوزیابی
مجیوعه 2
AB set
ل
ak
A
ve
با فیلتر
sar
“ay
vary
۹۹
۳
“ae
۳
۲
sar
aoe
sar
لحل
sar
۳
sar
sara
any
aye
ary
av any
yaar,
۸۳
rare
yan
صفحه 49:
fl @
بهبود كارايي طبقهبندي کننده مستندات نیمه ساختیافته 160 (حدود 5 الي 9
درصد) با بکار گيري روش وزن دهي ويژگي ۲
عت طبقفزندی کتنذه نیمه ساختیافته(0 در رسیدن به
يي با بكارگيري روش وزن دهي ويژگي ۵
Gl بهبود کارايي طبقهبندي کننده مستندات (حدود 5 درصد) با بكارگيري روش وزن
دهي ويزگي ۳00
Gl عدم وابسته بودن کارايی روش طبقهبندي کننده مستندات مبتني بر 00۹6 با
۱ Gl
تعداد مستندات ورودي
9489 افزایش سرعت محاسباتي با کاهش تعداد ويژگي ها (83 در 360 مستند و Gl
در 720 مستند) >کاهش ناچیز کارايي طبقهبندي کننده مستندات مبتني بر
)004/0 (حدود 0۴
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 سس
صفحه 50:
fl @
(ax sass
أذ ارائه روش جديدي براي طبقهبندي مستندات نیمه ساختيافته :20
دا طراحي و پیاده سازي چارچوبي جهت ارزيلبي اجزاء مختلف سیستم طبقهبندي کننده
مستندات نیمه ساختيافته
GI طراحي و پیاده سازي يك تحلیلگر لغوي ساختاري براي شاخص بندي کردن مستندات
نیمه ساختيافته با حفظ اطلاعات ساختاري ويژگيهاي تشکیل دهنده آنها
I ارائه روش جديدي براي وزن دهي برچسب ها و ان اهمیت هر يك از اجزاء
رائه روشي جدید براي وزن دهي ويژگيهاي مستتقات نیمه ساختیافته براساس
موقعیت ويژگي ()
أن اائه روش جدید براي وزن دهي ويژگي براساس اطلاعات طبقات (00)
اد بكارگيري روش وزن دهي ويژگي اسمح۵ در حوزه طبقهبندي مستندات
اتنا ارائه ليست كاملي از كلمات توقف + ايده جدید به منظور دستيابي به بهینه ترین لیست
كلمات توقف
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 — Oh
صفحه 51:
fl @
eat lst تاد
ال بهبود نحوه وزن دهی اجزاء مستندات نیمه ساختیافته
انآ ترکیب روش هاي وزن دهي ويژگي
ارائه روش جديدي براي انتخاب ويژگي از مستندات نیمه ساختيافته
استفاده از (0:76) براي تولید برداري از ويژگيهاي مفهومي
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT
صفحه 52:
fl
[Bl 1. ete, Dakar Lewrany OeBran Ud, Dow York, 8, C89.
[Bl تمسق 0: tere, Okra Formas Reread, OO reer, Oru York 1, 488.
,اف Dar Ora: Orenge wal Teakeanes, Darya aon مامت :0 بسا لا
[Bl ©, ©. Greens. Gov, Orbe be herent br Orr Probdety Ober al herder sheet, Dey, GOO.
[SI 0.0. rey, Carvey oP Pe سم لعج رفس بسا رد0 Spring bbe, 0
وزن دهي ويژگي 5
Spe," oad عم دا تسوا نع یاه( ی( بویت عیسو( ت۳۳ یله بل تسا 6۰ و
۵000 0۵۵06۸ وی 06 ,06 ای رس سا ما خی
| Vem Dk UY bh, CA. Xe, Omegrasin Chow Crate Drab م Dont
Camortnan” Oh om rate Orb Ornf mew, Deane, Oey Dyed OPAPP, COD.
[Bl ban, 027. een LW. Lew, OL, Pay, © Onaprrcare One on Perr Dehn Ochre Por Pee مه میسن ۵۵
ند مالس لسع مها Oecd Deterker (AIO), یر 2006۵0 006
Bl نس 1.0. Oye, (0 One ای و0 سامت هو تم hapa ‘erent ye, vk OW.
4 pp. 0109, C09.
عينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختياقت TT I AML
صفحه 53:
fl
ا As عقي" يارد لاح يون حبك الصوويه بويا سل LEE EEO Ya Ug SPER بودي تون مني
رمد اکن ge موز فرط دق tia espa
أ .يعاس يوه لداعت پل بان از يکي کار ین نم pA هرمز دنا دتم یکی 135
٩۵ pruned Lygerted Oceeprinan Orton Dot beh cl hereweendy Orne Oho نصا 0:۷ بت باق با نهآ
‘Abormar’OOrd DOO ‘heyaared Odorewe vu Ccewth wal Onebpwed ws bora Gere (OWGARDD), pp.
Oho, 6, CODD ,20-270
Gl ©. Oke, 0. Gory, ©. Dogys, ©, Crarceh, CherPans of UND Drovers by ikiee Tree Date مه
AODONDI, py. 670-099, 080, OOD
TBI. ony. Gham; B. Oks, “B rn of Opyromches “Layee Octeprintan” ened of “hark “الل
10, 6/۵ بو 0000۵ 6
[Bl ©. Onte, ©. Clye, “0 Grey ot Oiprowher & Orursretee Drove سا مایا مجع خسان 1115406-00,
برش هپس سوه ۵ dent Ort سل هه 00
|
ان 00۵0 یس ,0۵ اس مومس لت مسق
ع پم “Pernt ممعت مهن س0 لعن دس Por سعط للع مله" حبنت .© [Bl ©. Orde,
0
بايان نامه كارشناسي
طبقه بندي مستندات
احم ما من (DI. Sem, bis, “@ ReKBanonnto of Pet Ocrnprizatra Ortent,” GCod BOD ‘tersntead OrPerrane
1869 ,0005 ,طساب 3 Berean SABRE), gy: POPS, مهس انس مومت
نا ,0 ام سس پمهمسس0 060 "همست Gl ©. Gobwtad, “Dookie Leas bs Ohtani! eat
e008.
oS
مينا ملكي- يهينه سازي كشف اطلاعات از مستندات نيمه ساختيافته .0861 TT
(
صفحه 54:
fl @
Sale SD
1. M. Maleki, A. Abdollahzadeh, "A New Location-based Feature Weighting
Method for Categorization of Semi-structured Documents," accepted in the
31st Annual Conference of the German Classification Society on Data Analysis,
Machine Learning, and Applications (GFKL 2007), March 2007, Freiburg i.
Br., Germany.
2, M. Maleki, A. Abdollahzadeh, "TFCRF: A Novel Feature Weighting Method
Based on Class Information in Text Categorization (revised version),"
accepted in the 31st Annual Conference of the German Classification Society
on Data Analysis, Machine Learning, and Applications (GFKL 2007), March
2007, Freiburg i. Br., Germany.
3. M. Maleki, A, Abdollahzadeh, "TFCRF: A Novel Feature Weighting Method
Based on Class Information in Text Categorization,” accepted in the 19th
international conference on Computer, Information and Systems Science and
Engineering, (ICKM 2007), 29-31 January 2007, Bangkok, Thailand.
4 م. ملکي. | عبدالله زاده. "1۳018 روش جدید وزن دهي ويژگي مبتني بر اطلاعات کلاس در حوزة طبقه بندي
مستندات "» پذیرفته شده در دوازدهمین کنفیانس انجمن مهندسي کامپیوتر ایران 2007 05706
1-3 اسقند 1385 دانشکده برق و کمپیوتردانشگاه شهید بهشتي, تهران: یران
آزمایشگا سيستع هاي موشمند
مينا ملكي- يهيته سازي كشف اطلاعات از مستددات نيمه ساختيافته .0861 Oh
صفحه 55:
صفحه 56:
١ يكو
"برش وباس
تن