صفحه 1:

صفحه 2:

صفحه 3:

صفحه 4:
مقدمه اگر ما متتی را روی کاغذ داشته باشیم و بخواهیم عين متن را بدون تايب كردن وارد اكامييوز كليم جكار باند ‎gal‏ ما به وسیلة استکل 4 سی توالیم تصویری: از آن متن را وارد کامپیوتر کنیم. اما اين فقط یک تصویر است و نمی توان روی آن پردازش انجام .داد در واقع « تصویر دیجیتال‌شده» باید به « تصویر قابل پردازش» تبدیل شود پردازش و آنالیز تصاویر میتواند به عنوان یک ساختار کاربردی و تکنی - تسخيركردن: تصحيحج کونی» زیا گزدن و تغیبر قسگل فادن تصاویری: گنه مشاهنه سین .شود تعریف کرد

صفحه 5:
موضوع به ما این امکان را می دهد که یک کتاب و يا یک مقلله را )میک سیستم مستقیما به یک فایل الکترونیکی تبدیل نماییم و آن را با کمک یک پردازشگر تغییر دهیم این تکنولوئی مدتهاست که به وسیله کتابخانه ها وسازمان هاى دولتی برای دستیابی الکترونیکی سریع به مدارک حجیم به کارمی رود و از از معدود زمینه های هوش ‎Bld OCR‏ سرعت و هزینه روش مناسبی است تکیه کرد «مسوعى أسك كه:ميتوان دزتعهل بدا آن

صفحه 6:
تاریخچه سیستم های 065 اولین اقدامات صورت گرفته: در زمينة بازشناسی, حروف, در سال‌های اول دهه ۰ انجام گرفته است که دانشمندان روسی می خواستند به افراد مبتلا به .نارسایی‌های بینایی کمک نماید در سال۱۹۲۹ در آلمان و در سال ۱۹۳۳ در آمریکا ابداعاتی در زمینه .ثبت نمودند اينها اولين ايده ها ى شناساى ی حروف هستند 05۴ اولين كامييوتر تجار ى در سال ‎118١‏ در آمريكا شروع به كار كرد. در اين .به عنوان يك يديده قابل بياده سازى يذيرفته شد 00018 زمان بود كه ايده

صفحه 7:
در اوایل دهه ‎۰٩۰‏ روش‌های پردازش تصویر و بازشناسی الگو با تکنیک‌های کارآمد هوش مصنوعی ادغام گشتند امروزه علاوه بر وجود رایانه‌های قدرتمندتر و تجهیزات الکترونیکی دقیق‌تر مانند انسکنرهاه دوربينها و«صفحاث رقم ىكتنده. استقاده إز تكنيكهاى بردازشيى مدرن و توانمند همجون شبکه‌های عصسبی . مدل‌های مارکوف پنهان ۰ منطق .فازی» و مدل‌های پردازش زبان طبیعی امکان‌پذیر گشته است

صفحه 8:
طنواع 06015

صفحه 9:
فايل قابل وبرايش ‎D> Tre‏ 5 2 سس

صفحه 10:
اتقنقير دريافت تصوير بهينه سازى سند و بهب 5 ‎١‏ ء ايل خروجى شب یس تحلیل محتوای" ید احیه بندی ناحیه ب 3 سند و : خودکار آن — ت لزوم اندن نواحى ‎ayes‏ ‎Syst‏ 28 طلاعات به نوع ‎١‏

صفحه 11:

صفحه 12:
مبحث 0۱۸۵ ساختار سلسله مراتبی آن بازشناسی نوری حروف ( 0۳ )

صفحه 13:
ویژکیهای متون جاپی فارسی از نظرپردازش رایانه ای “ادر کلمات فارسی برخی از حروف از یک يا دو طرف به حروف مجاور خود اتصال دارند و برخى نيز بصورت مجزا نوشته مى شوند. حروف فارسى ممكن است به جهار شكل متفاوت انگازش شزند. حروف واقع در یک کلمه ممکن است همپوشانی داشته باشند. در برخی از فونت ها بعضی از حروف از يكك سمت در دو محل به یکدیگر اتصال دارند.

صفحه 14:
پیچیدگی های سیستم های0۴ فارسی ۲ حروف فارسی ممکن است در بالا یا پایین بدنه دارای اعراب باشند. در بالای بدنه یک حرف ممکن است علامت تشدید وجود داشته باشد. برخی از حروف دارای علامث همزه هستند. 2 بيشتر حروف فارسى ( مخصوصا حروف جسبيده ) دندانه دار هستند.

صفحه 15:
معرفی بخشهای مختلف یک سیستم 0015 وعد سي job ub |

صفحه 16:
پیش پردازش شامل کلیة اعمالی که روی سیگنال تصویری خام صورت میگیرند تا موجب .تسهیل روند اجرای فازهای بعدی گردند؛ مانند باینری کردن تصویر ‎BP BS‏ :از مجموعة این پردازشها هدفهای زیر دنبال می شود «کاهش نویز ۱2 .نرمالیزه نمودن داده ها -۲ فشرده سازی ‎Ye‏ سرح عو 0017

صفحه 17:
کاهش نویز نويز ايجاد شده:بواسطة دستكاه هائ:اسكير تور :يا ابزارهائ تكارشى منجر جه ايجاد قطعه خط هاى كسسته. اتصال بین خطوط, فضاهای خللی در خطوط متن» پر شدن حفره های موجود در تصویر برخی حروف و غیره می گردد. همچنین اعوجاج های مختلف شامل تغييرات محلى. منحنى شدن كوشةه فاى خروف. تغيير شكل ويا خوردكى حروف را نيز بايستى مد نظر قرار داد. تحلیل بخشهای مختلف پیش پردازش

صفحه 18:
کاهش نویز Information Information Information Informatian تحلیل بخشهای مختلف پیش پردازش

صفحه 19:
نرمالیزه کردن داده ها

صفحه 20:
فرمالیزه کردن کچی متن و استخراج خطوط زمینه ‎a‏ دلیل بی دقتی در مرحله اسکن یابی دقتی نویسنده در هنگام نگارش متن دست نوشت. ممکن است خطوط متن نسبت به تصویر اندکی انحراف یا چرخش داشته .باشند آشکارسازی ط زمینه در بسیازق از تکنیک های قظنه بندی و بازشناسی نون .فارسی عربی لائین نقش اساسی دارد pate bo edt 2 pope) ص مي اط يا ذخا را سابع ليق مث مب مر عرس نت زرتیور نرمالیزه کردن داده ها

صفحه 21:
نرماليزه كردن اريب شدكى در متون چاپی فارسی و لاتین . کاراکترهای دارای فرمت ایتالیک از راستای عمود انحراف دارند. همچنین در متون دستنویس برخی از نویسنده ها حروف را بصورت یج ‎Ge A a‏ کته هی لو ری تواد دقن نزاي از الگوریتم های قطعه بندی « اریب شدگی » پدیده تحت عنوان یا ناسی را تحت دهد و لذا در این سیستم ها لازم است که در مرحلة پیش پردازش » میزا بودن کاراکترها شناسایی و تصحیح گردد. نرمالیزه کردن داده ها

صفحه 22:
نرمالیزه کردن (تغییر مقیاس دادن) اندازه ۲ در سیستم های 068 اغلب تصاویر کلمات خیلی کوچک یا خیلی بزرگ به یک اندازهُ استاندارد نرمالیزه می شوند. تا بدین ترتیب عملیات بازشناسی, مستقل از اندازه فونت متن گردد. ” اين عمل معمولا با نمونه برداری مجدد ۲ تصویر انجام میگیرد ۲ روش هایی نظیر 91۱1063۳ یا >01لا»۱ 2 بر روی تصاویر سطح خاکستری به نحو مناسبی عمل میکنند. نرمالیزه کردن داده ها

صفحه 23:
هموارسازی کانتور خط تشکیل دهنده مرز یک کاراکتر را کانتور آن کاراکتر گویند. در متون د؛ نوشت. به واسطه لرزش یا حرکت ناخواسته دست نویسنده در هنگام نگارش. ممکن آبتت که کانتور حروف تاضاف:شود. روشهای هموارسازی کانتور بمنظور جبران این نقیصه مورد استفاده قرار میگیرند. بطور کلی هموارسازی کانتور تعداد نقاط تمونة مورد نیاز برای بازنمایی کاراکتر را کاهش میدهد و در نتيجه کارایی مراحل پردازشی باقیمانده را بهبود می بخشد. نرمالیزه کردن داده ها

صفحه 24:
فشرده سازی تکنیک های متعارف فشرده سازی: باینری (دوسطحی) کردن تصویر متن ۲ نازک سازی

صفحه 25:
باینری (دوسطحی) کردن تصویر متن تصاوير دیجیتال به یکی از سه صورت تصاویر رنگی» تصاویر خاکستری ( مشابه تصویر یک تلویزیون سیاه و سفید که رنگ تصویر به صورت سياه و سفيد و طيفى از رنگ های خاکستری ظاهر می شود ) و تصاویر دوگانی یا دو سطحی ( مشابه تصویر یک سند فکس شده که رنگ پیکسل های تصویر, تنها سیاه یا سفید است) می باشند. تکنیکهای فشرده سازی

صفحه 26:
ناک سازی این عمل درحالیکه کاهش قابل ملاحظه ای در حجم داده ها ایجاد میکند. اطلاعات شکلی کاراکتر را نیز استخراج .می نماید : دو روش پایه بای ناز کسازی عبارتند از ازکسازی از ریق پیکسیل «بعسورت محلی:و تکرازی تصوير را مورد پردازش قرار می دهد تا وقتی که از تصوير كاراكتر أننها اسکلت آن به عرض یک پیکسل باقی ‎ile.‏ نا زکسازی بدون پیکسل : طی فرایند نازک سازی مقداری از اطلاعات سراسری دربارة کاراکتر را مورد استفاده قیلر دم اه تکنیکهای فشرده سازی

صفحه 27:
قطعه بندی ( جداسازی ) قطمه بندی عبارت است از روش هایبی که [ مه بخش های مختلفی همچون پاراگراف هاء 9 | { ۰ جملات یا کلمات و حروف را از تصویر بندی .استخراج می نمایند ole ‏نقطه تمایز اصلی میان‎ OCR ‏فارسی و لاتین برای متون چاپی. در مرحله‎ ‏.قطعه بندی درونی نهفته است‎ قطعه بندی غلط کاراکترها . عامل بسیاری از است 00 خطاهای قطمه بندی بخشهای مختلف یک سیستم 061

صفحه 28:
استخراج ویژگی ها (بازنمایی) چرا که ]0062 لین مرحله یکی از مراحل بسیار با اهمیت در سیستم های .نتایج حاصل از این مرحله. مستقیما بروی کیفیت مرحله بازشناسی اثر می گذارد در مرحله بازنمایی؛ به هر الگوی ورودی یک کد یا بردار ویژگی نسبت داده می شود كه معرف أن الكو در فضای ویژگی ها است و ن را از دیگر الگوها متملیز می .سازد بخشهای مختلف یک ‎OER pie‏

صفحه 29:
طبقه بندی با بازشناسی لین مرحله شامل روش های برای متناظر ساختن هر یک از الگوهای بدست آمده از مرحله استخراج ویژگی هاء.با یکی از کلاس های فضای الگو مورد بحث است که از طریق کمینه ساختن فاصله بردار ویژگی های هر الگوی ورودی نسبت به یکی از .بردارهاى مرجع انجام مى كيرد

صفحه 30:
بکار گیری اطلاعات جانبی( پس پردازش) لا در این مرحله با استفاده از اطلاعات جانبی ( نظیر مجموعه لغات معتبره اطلاعات آماری مربوط به رخداد حروف. اطلاعات دستوری و معنایی ) سعی در بهبود نتایج حاصل از مرحله بازشناسی می گردد. ۷ _ درصورت فراهم شدن اطلاعات معناشناختی, دقت نتایج بازشناسی به نحو چشمگیری افزایش می یابد. بخشهای مخت مختلف یک سیستم +6061

صفحه 31:
الگوریتم جداسازی و شناسایی حروف تایبی جداسازی حروف جداسازی کلمات

صفحه 32:
جداسازی سطرها تداولترین الگوریتمی که تا کنون برای جداسازی سطرهای متن ارلئه شده است از .نمای عمودی تصویر متن بهره می گیرد در این الگوریتم ابتدا نمای عمودی یک صفحه از متن رسم میگردد. نقاط مینیمم این نمودار . مشخص کننده محل جداسازی سطرها از یکدیگر هستند . در حالت هایی که تصوير متن کاملا افقی و یا نزدیکتر به افقی باشد. ۰ اين الگوریتم به خوبی کار میکند . اما در حللت هایی که تصویر متن چرخیده باشد این الگوریتم قادر نخواهد بود سطرهای متن را ازیکدیگر جدا کند

صفحه 33:
معمولا برای حدا کردن سطرهای - متن, نمای عمودی تصویر متن را رسم می کنند و سپس نقاطی را که - مقدار نمودار در انها صفر ويا نزديك به صفر است, به عنوان محل جدا کردن سطرها در نظر می گيرند. ۱

صفحه 34:
CLIT ‏جداسازی‎ برای جداسازی کلمات هر سطر عموما از نمای افقی سطر استفاده شده است. در این روش ابتدا نمای افقی یک سطر از متن رسم میگردد . نقاطی که ارتفاع نمای افقی در آنها از یک .مقدا رآستانه ای کمتر باشد ‏ به عنوان محل جداسازی کلمات تلقی می شوند Al fel yg aif

صفحه 35:
این روش الزاما" کلمات را از یکدیگر جدا نمیکند بلکه اجزایی را جدا میکند که در امتداد عمودی یکدیگر را نپوشانده باشند. هریک از این اجزا ممکن است یک کلمه کامل یا بخشی از یک کلمه باشد. مرجوع بازشناسی سف الا اساه‌فناسف ‎ee ota) Bo‏ كلمة زجوم ‎ ‎ ‎ ‎ ‎ ‎say at Dag ‏طعت‎ A ‎ ‎

صفحه 36:
جداسازی حروف برای شناسایی حروف تشکیل دهنده زیر کلمات باید ابتدا آنها را از یکدیگر جدا کنیم . : الگوریتم جداسازی حروف الفبای فارسی دو وظیفه بر عهده دارد .الف) جداسازی حروفی که به حرف ما بعد خود نمی چسبند اما با آن همپوشانی دارند .«ب) جداسازی حروفی که به حرف ما بعد خود می چسبند

صفحه 37:
کاربردهای 068 جداکردن نامه ها در مراکز پست 7 دسته بندی چکهای بانک v

صفحه 38:
1 | sv ‏ارتباط بین انسان و ماشین با استفاده از‎ تبدیل کتاب‌ها یا اسناد اسکن شده به ِ فایل‌های متنی و تصاویر

صفحه 39:
کمک به خواندن افراد نابینا تبدیل حروف و نوشته های خطی: به خط بريل «محصوص”"ابيتأيان):دانتست و به اين ترتيب همه نوشته هاى بشر توسط نابينايان قابل خوانده شدن «است

صفحه 40:
نتیجه گیری تسهیل در روند کاری در وقت و هزینه را در اداره و سازمان ها با سرعت بیشتر پیش می رود. افزایش چشمگیر سرعت دسترسی به اطلاعات؛ کاهش فضای ذخیره سازی

صفحه 41:
منابع پایان نامه باز خوانی نوری حروف 08 (موسی غریبی) لا پردازش تصویر و معرفی تکنیک های استفاده از آن (حسن جباری و امین ثابت قدم اصل)

جهت مطالعه ادامه متن، فایل را دریافت نمایید.
34,000 تومان