صفحه 1:

صفحه 2:

صفحه 3:

صفحه 4:
مقدمه اگر ما متتی را روی کاغذ داشته باشیم و بخواهیم عين متن را بدون تايب كردن وارد اكامييوز كليم جكار باند ‎gal‏ ما به وسیلة استکل 4 سی توالیم تصویری: از آن متن را وارد کامپیوتر کنیم. اما اين فقط یک تصویر است و نمی توان روی آن پردازش انجام .داد در واقع « تصویر دیجیتال‌شده» باید به « تصویر قابل پردازش» تبدیل شود پردازش و آنالیز تصاویر میتواند به عنوان یک ساختار کاربردی و تکنی - تسخيركردن: تصحيحج کونی» زیا گزدن و تغیبر قسگل فادن تصاویری: گنه مشاهنه سین .شود تعریف کرد

صفحه 5:
موضوع به ما این امکان را می دهد که یک کتاب و يا یک مقلله را )میک سیستم مستقیما به یک فایل الکترونیکی تبدیل نماییم و آن را با کمک یک پردازشگر تغییر دهیم این تکنولوئی مدتهاست که به وسیله کتابخانه ها وسازمان هاى دولتی برای دستیابی الکترونیکی سریع به مدارک حجیم به کارمی رود و از از معدود زمینه های هوش ‎Bld OCR‏ سرعت و هزینه روش مناسبی است تکیه کرد «مسوعى أسك كه:ميتوان دزتعهل بدا آن

صفحه 6:
تاریخچه سیستم های 065 اولین اقدامات صورت گرفته: در زمينة بازشناسی, حروف, در سال‌های اول دهه ۰ انجام گرفته است که دانشمندان روسی می خواستند به افراد مبتلا به .نارسایی‌های بینایی کمک نماید در سال۱۹۲۹ در آلمان و در سال ۱۹۳۳ در آمریکا ابداعاتی در زمینه .ثبت نمودند اينها اولين ايده ها ى شناساى ی حروف هستند 05۴ اولين كامييوتر تجار ى در سال ‎118١‏ در آمريكا شروع به كار كرد. در اين .به عنوان يك يديده قابل بياده سازى يذيرفته شد 00018 زمان بود كه ايده

صفحه 7:
در اوایل دهه ‎۰٩۰‏ روش‌های پردازش تصویر و بازشناسی الگو با تکنیک‌های کارآمد هوش مصنوعی ادغام گشتند امروزه علاوه بر وجود رایانه‌های قدرتمندتر و تجهیزات الکترونیکی دقیق‌تر مانند انسکنرهاه دوربينها و«صفحاث رقم ىكتنده. استقاده إز تكنيكهاى بردازشيى مدرن و توانمند همجون شبکه‌های عصسبی . مدل‌های مارکوف پنهان ۰ منطق .فازی» و مدل‌های پردازش زبان طبیعی امکان‌پذیر گشته است

صفحه 8:
طنواع 06015

صفحه 9:
فايل قابل وبرايش ‎D> Tre‏ 5 2 سس

صفحه 10:
اتقنقير دريافت تصوير بهينه سازى سند و بهب 5 ‎١‏ ء ايل خروجى شب یس تحلیل محتوای" ید احیه بندی ناحیه ب 3 سند و : خودکار آن — ت لزوم اندن نواحى ‎ayes‏ ‎Syst‏ 28 طلاعات به نوع ‎١‏

صفحه 11:

صفحه 12:
مبحث 0۱۸۵ ساختار سلسله مراتبی آن بازشناسی نوری حروف ( 0۳ )

صفحه 13:
ویژکیهای متون جاپی فارسی از نظرپردازش رایانه ای “ادر کلمات فارسی برخی از حروف از یک يا دو طرف به حروف مجاور خود اتصال دارند و برخى نيز بصورت مجزا نوشته مى شوند. حروف فارسى ممكن است به جهار شكل متفاوت انگازش شزند. حروف واقع در یک کلمه ممکن است همپوشانی داشته باشند. در برخی از فونت ها بعضی از حروف از يكك سمت در دو محل به یکدیگر اتصال دارند.

صفحه 14:
پیچیدگی های سیستم های0۴ فارسی ۲ حروف فارسی ممکن است در بالا یا پایین بدنه دارای اعراب باشند. در بالای بدنه یک حرف ممکن است علامت تشدید وجود داشته باشد. برخی از حروف دارای علامث همزه هستند. 2 بيشتر حروف فارسى ( مخصوصا حروف جسبيده ) دندانه دار هستند.

صفحه 15:
معرفی بخشهای مختلف یک سیستم 0015 وعد سي job ub |

صفحه 16:
پیش پردازش شامل کلیة اعمالی که روی سیگنال تصویری خام صورت میگیرند تا موجب .تسهیل روند اجرای فازهای بعدی گردند؛ مانند باینری کردن تصویر ‎BP BS‏ :از مجموعة این پردازشها هدفهای زیر دنبال می شود «کاهش نویز ۱2 .نرمالیزه نمودن داده ها -۲ فشرده سازی ‎Ye‏ سرح عو 0017

صفحه 17:
کاهش نویز نويز ايجاد شده:بواسطة دستكاه هائ:اسكير تور :يا ابزارهائ تكارشى منجر جه ايجاد قطعه خط هاى كسسته. اتصال بین خطوط, فضاهای خللی در خطوط متن» پر شدن حفره های موجود در تصویر برخی حروف و غیره می گردد. همچنین اعوجاج های مختلف شامل تغييرات محلى. منحنى شدن كوشةه فاى خروف. تغيير شكل ويا خوردكى حروف را نيز بايستى مد نظر قرار داد. تحلیل بخشهای مختلف پیش پردازش

صفحه 18:
کاهش نویز Information Information Information Informatian تحلیل بخشهای مختلف پیش پردازش

صفحه 19:
نرمالیزه کردن داده ها

صفحه 20:
فرمالیزه کردن کچی متن و استخراج خطوط زمینه ‎a‏ دلیل بی دقتی در مرحله اسکن یابی دقتی نویسنده در هنگام نگارش متن دست نوشت. ممکن است خطوط متن نسبت به تصویر اندکی انحراف یا چرخش داشته .باشند آشکارسازی ط زمینه در بسیازق از تکنیک های قظنه بندی و بازشناسی نون .فارسی عربی لائین نقش اساسی دارد pate bo edt 2 pope) ص مي اط يا ذخا را سابع ليق مث مب مر عرس نت زرتیور نرمالیزه کردن داده ها

صفحه 21:
نرماليزه كردن اريب شدكى در متون چاپی فارسی و لاتین . کاراکترهای دارای فرمت ایتالیک از راستای عمود انحراف دارند. همچنین در متون دستنویس برخی از نویسنده ها حروف را بصورت یج ‎Ge A a‏ کته هی لو ری تواد دقن نزاي از الگوریتم های قطعه بندی « اریب شدگی » پدیده تحت عنوان یا ناسی را تحت دهد و لذا در این سیستم ها لازم است که در مرحلة پیش پردازش » میزا بودن کاراکترها شناسایی و تصحیح گردد. نرمالیزه کردن داده ها

صفحه 22:
نرمالیزه کردن (تغییر مقیاس دادن) اندازه ۲ در سیستم های 068 اغلب تصاویر کلمات خیلی کوچک یا خیلی بزرگ به یک اندازهُ استاندارد نرمالیزه می شوند. تا بدین ترتیب عملیات بازشناسی, مستقل از اندازه فونت متن گردد. ” اين عمل معمولا با نمونه برداری مجدد ۲ تصویر انجام میگیرد ۲ روش هایی نظیر 91۱1063۳ یا >01لا»۱ 2 بر روی تصاویر سطح خاکستری به نحو مناسبی عمل میکنند. نرمالیزه کردن داده ها

صفحه 23:
هموارسازی کانتور خط تشکیل دهنده مرز یک کاراکتر را کانتور آن کاراکتر گویند. در متون د؛ نوشت. به واسطه لرزش یا حرکت ناخواسته دست نویسنده در هنگام نگارش. ممکن آبتت که کانتور حروف تاضاف:شود. روشهای هموارسازی کانتور بمنظور جبران این نقیصه مورد استفاده قرار میگیرند. بطور کلی هموارسازی کانتور تعداد نقاط تمونة مورد نیاز برای بازنمایی کاراکتر را کاهش میدهد و در نتيجه کارایی مراحل پردازشی باقیمانده را بهبود می بخشد. نرمالیزه کردن داده ها

صفحه 24:
فشرده سازی تکنیک های متعارف فشرده سازی: باینری (دوسطحی) کردن تصویر متن ۲ نازک سازی

صفحه 25:
باینری (دوسطحی) کردن تصویر متن تصاوير دیجیتال به یکی از سه صورت تصاویر رنگی» تصاویر خاکستری ( مشابه تصویر یک تلویزیون سیاه و سفید که رنگ تصویر به صورت سياه و سفيد و طيفى از رنگ های خاکستری ظاهر می شود ) و تصاویر دوگانی یا دو سطحی ( مشابه تصویر یک سند فکس شده که رنگ پیکسل های تصویر, تنها سیاه یا سفید است) می باشند. تکنیکهای فشرده سازی

صفحه 26:
ناک سازی این عمل درحالیکه کاهش قابل ملاحظه ای در حجم داده ها ایجاد میکند. اطلاعات شکلی کاراکتر را نیز استخراج .می نماید : دو روش پایه بای ناز کسازی عبارتند از ازکسازی از ریق پیکسیل «بعسورت محلی:و تکرازی تصوير را مورد پردازش قرار می دهد تا وقتی که از تصوير كاراكتر أننها اسکلت آن به عرض یک پیکسل باقی ‎ile.‏ نا زکسازی بدون پیکسل : طی فرایند نازک سازی مقداری از اطلاعات سراسری دربارة کاراکتر را مورد استفاده قیلر دم اه تکنیکهای فشرده سازی

صفحه 27:
قطعه بندی ( جداسازی ) قطمه بندی عبارت است از روش هایبی که [ مه بخش های مختلفی همچون پاراگراف هاء 9 | { ۰ جملات یا کلمات و حروف را از تصویر بندی .استخراج می نمایند ole ‏نقطه تمایز اصلی میان‎ OCR ‏فارسی و لاتین برای متون چاپی. در مرحله‎ ‏.قطعه بندی درونی نهفته است‎ قطعه بندی غلط کاراکترها . عامل بسیاری از است 00 خطاهای قطمه بندی بخشهای مختلف یک سیستم 061

صفحه 28:
استخراج ویژگی ها (بازنمایی) چرا که ]0062 لین مرحله یکی از مراحل بسیار با اهمیت در سیستم های .نتایج حاصل از این مرحله. مستقیما بروی کیفیت مرحله بازشناسی اثر می گذارد در مرحله بازنمایی؛ به هر الگوی ورودی یک کد یا بردار ویژگی نسبت داده می شود كه معرف أن الكو در فضای ویژگی ها است و ن را از دیگر الگوها متملیز می .سازد بخشهای مختلف یک ‎OER pie‏

صفحه 29:
طبقه بندی با بازشناسی لین مرحله شامل روش های برای متناظر ساختن هر یک از الگوهای بدست آمده از مرحله استخراج ویژگی هاء.با یکی از کلاس های فضای الگو مورد بحث است که از طریق کمینه ساختن فاصله بردار ویژگی های هر الگوی ورودی نسبت به یکی از .بردارهاى مرجع انجام مى كيرد

صفحه 30:
بکار گیری اطلاعات جانبی( پس پردازش) لا در این مرحله با استفاده از اطلاعات جانبی ( نظیر مجموعه لغات معتبره اطلاعات آماری مربوط به رخداد حروف. اطلاعات دستوری و معنایی ) سعی در بهبود نتایج حاصل از مرحله بازشناسی می گردد. ۷ _ درصورت فراهم شدن اطلاعات معناشناختی, دقت نتایج بازشناسی به نحو چشمگیری افزایش می یابد. بخشهای مخت مختلف یک سیستم +6061

صفحه 31:
الگوریتم جداسازی و شناسایی حروف تایبی جداسازی حروف جداسازی کلمات

صفحه 32:
جداسازی سطرها تداولترین الگوریتمی که تا کنون برای جداسازی سطرهای متن ارلئه شده است از .نمای عمودی تصویر متن بهره می گیرد در این الگوریتم ابتدا نمای عمودی یک صفحه از متن رسم میگردد. نقاط مینیمم این نمودار . مشخص کننده محل جداسازی سطرها از یکدیگر هستند . در حالت هایی که تصوير متن کاملا افقی و یا نزدیکتر به افقی باشد. ۰ اين الگوریتم به خوبی کار میکند . اما در حللت هایی که تصویر متن چرخیده باشد این الگوریتم قادر نخواهد بود سطرهای متن را ازیکدیگر جدا کند

صفحه 33:
معمولا برای حدا کردن سطرهای - متن, نمای عمودی تصویر متن را رسم می کنند و سپس نقاطی را که - مقدار نمودار در انها صفر ويا نزديك به صفر است, به عنوان محل جدا کردن سطرها در نظر می گيرند. ۱

صفحه 34:
CLIT ‏جداسازی‎ برای جداسازی کلمات هر سطر عموما از نمای افقی سطر استفاده شده است. در این روش ابتدا نمای افقی یک سطر از متن رسم میگردد . نقاطی که ارتفاع نمای افقی در آنها از یک .مقدا رآستانه ای کمتر باشد ‏ به عنوان محل جداسازی کلمات تلقی می شوند Al fel yg aif

صفحه 35:
این روش الزاما" کلمات را از یکدیگر جدا نمیکند بلکه اجزایی را جدا میکند که در امتداد عمودی یکدیگر را نپوشانده باشند. هریک از این اجزا ممکن است یک کلمه کامل یا بخشی از یک کلمه باشد. مرجوع بازشناسی سف الا اساه‌فناسف ‎ee ota) Bo‏ كلمة زجوم ‎ ‎ ‎ ‎ ‎ ‎say at Dag ‏طعت‎ A ‎ ‎

صفحه 36:
جداسازی حروف برای شناسایی حروف تشکیل دهنده زیر کلمات باید ابتدا آنها را از یکدیگر جدا کنیم . : الگوریتم جداسازی حروف الفبای فارسی دو وظیفه بر عهده دارد .الف) جداسازی حروفی که به حرف ما بعد خود نمی چسبند اما با آن همپوشانی دارند .«ب) جداسازی حروفی که به حرف ما بعد خود می چسبند

صفحه 37:
کاربردهای 068 جداکردن نامه ها در مراکز پست 7 دسته بندی چکهای بانک v

صفحه 38:
1 | sv ‏ارتباط بین انسان و ماشین با استفاده از‎ تبدیل کتاب‌ها یا اسناد اسکن شده به ِ فایل‌های متنی و تصاویر

صفحه 39:
کمک به خواندن افراد نابینا تبدیل حروف و نوشته های خطی: به خط بريل «محصوص”"ابيتأيان):دانتست و به اين ترتيب همه نوشته هاى بشر توسط نابينايان قابل خوانده شدن «است

صفحه 40:
نتیجه گیری تسهیل در روند کاری در وقت و هزینه را در اداره و سازمان ها با سرعت بیشتر پیش می رود. افزایش چشمگیر سرعت دسترسی به اطلاعات؛ کاهش فضای ذخیره سازی

صفحه 41:
منابع پایان نامه باز خوانی نوری حروف 08 (موسی غریبی) لا پردازش تصویر و معرفی تکنیک های استفاده از آن (حسن جباری و امین ثابت قدم اصل)

1 : ت م % شخی و % ض % و ص د %ع س ت خط 2 ت ه ی ه ه ا ک عذ ج ر ن ن م را م عس د اگ ح ب ر ا ک ر ن: وبه دی ی ا ف د ع ر ک س م تر تاد وی د میر :ی ک م ا ل ی O C R l a r c te n i t p a c iti o O ar n g h C co e R 3 مقدمه اگر ما متنی را روی کاغذ داشته باشیم و بخواهیم عین متن را بدون تایپ کردن وارد کامپیوتر كنيم چکار باید بکنیم؟ ما به وسیله «اسكنر» می توانیم تصويری از آن متن را وارد کامپیوتر كنیم ،اما این فقط یک تصویر است و نمی توان روی آن پردازش انجام .داد در واقع « تصوير ديجيتال‌شده» بايد به « تصوير قابل پردازش» تبدیل شود پردازش و آنالی ز تص اویر میتوان د ب ه عنوان ی ک س اختار کاربردی و تکنیک ی جه ت تس خیرکردن ،تص حیح کردن ،زیاد کردن و تغیی ر شـکل دادن تص اویری ک ه مشاهده م ی .شود تعریف کرد 4 موضوع به ما این امکان را می دهد که یک کتـاب و یا یک مقاله را OCRیک سیستم مس تقیما ب ه ی ک فای ل الکترونیک ی تبدی ل نمایی م و آ ن را ب ا کم ک ی ک پردازشگ ر تغیی ر دهی م ای ن تکنولوژ ی مدتهاس ت ک ه ب ه وس یله کتابخان ه ه ا وس ازمان هـای دولتـی بـرای دس ـتیابی الکترونیکـی س ریع ب ه مدارک حجی م ب ه کارم ی رود و از از معدود زمین ه های هوش .OCRلحاظ س رعت و هزینـه روش مناس بی اس ت .مصنوعی است که میتوان در عمل به آن تکیه کرد 5 تاريخچه سيستم هاي OCR اولين اقدامات ص ورت گرفته در زمين ة بازشناسي حروف ,در س ال‌هاي اول دهه 1900انجام گرفت ه اس ت ک ه دانشمندان روس ي م ي خواس تند ب ه افراد مبتال ب ه .نارسايي‌هاي بينايي كمك نمايد در س ـــال 1929در آلمـــان و در س ـــال 1933در آمریک ا ابداعات ی در زمینه .ثبت نمودند اینها اولین ایده ها ی شناسای ی حروف هستند OCR اولی ن کامپیوت ر تجـار ی در س ال 1951در آمریک ا شروع ب ه کار کـرد .در ایـن .به عنوان یک پدیده قابل پیاده سازی پذیرفته شد OCRزمـان بـود کـه ایـده 6 در اوايل ده ه ،90روش‌هاي پردازش تص وير و بازشناس ي الگ و ب ا تكنيك‌هاي .كارآمد هوش مصنوعي ادغام گشتند امروزه عالوه بر وجود رايانه‌هاي قدرتمندت ر و تجهيزات الكترونيكي دقيق‌ت ر مانن د اس كنرها ،دوربين‌ه ا و ص فحات رقمي‌كننده ،اس تفاده از تكنيك‌هاي پردازش ي مدرن و توانمن د همچون شبكه‌هاي عص بي ،مدل‌هاي ماركوف پنهان ،منطق‌ .فازي ،و مدل‌هاي پردازش زبان طبيعي امكان‌پذير گشته است 7 انواع OCR ‏OCR تایپی دست نویس پیوسته گسسته 8 Black Boxجعبه س یاه 9 دریافت تصویر سند و بهینه سازی آن تحلیل محتوای سند و ناحیه بندی خودکار آن تولید فایل خروجی به فرمت دلخواه خواندن نواحی در صورت لزوم مختلف سند با توجه ویرایش متن به نوع اطالعات 10 ت ص و ی ر ا ی س ت د فاد ر اب تک ه ا ر ه ن ز ن و ح ل ‏R و و ژ Cه ی O 11 مبحث DIAساختار سلسله مراتبي آن بازشناسي نوري حروف ( ) OCR 12 ویژگيهاي متون چاپي فارسي از نظرپردازش رایانه اي در کلمات فارسی برخی از حروف از یک یا دو طرف به حروف مجاور خود اتصال دارند و برخی نیز بصورت مجزا نوشته می شوند. حروف فارسی ممکن است به چهار شکل متفاوت نگارش شوند. حروف واقع در یک کلمه ممکن است همپوشانی داشته باشند. در برخی از فونت ه ا بعض ی از حروف ،از یک سمت در دو محل به یکدیگر اتصال دارند. 13 پیچیدگی هاي سیستم هاي OCRفارسی حروف فارسی ممکن است در باال یا پایین بدنه داراي اعراب باشند. در باالي بدنه یک حرف ممکن است عالمت تشدید وجود داشته باشد. برخی از حروف داراي عالمت همزه هستند. بیشتر حروف فارسی ( مخصوصا حروف چسبیده ) دندانه دار هستند. 14 معرفی بخشهاي مختلف يك سيستم OCR 15 پيش پردازش شام ل كلية اعمال ي كه روي س يگنال تص ويري خام ص ورت ميگيرن د ت ا موجب .تسهيل روند اجراي فازهاي بعدي گردند؛ مانند باينري كردن تصوير ،حذف نويز :از مجموعة اين پردازشها هدفهاي زير دنبال مي شود .كاهش نويز ‐۱ .نرماليزه نمودن داده ها ‐۲ فشرده سازي ‐۳ تحليل بخشهاي مختلف سيستمهاي OCR 16 كاهش نويز نويز ايجاد شده بواسطة دستگاه هاي اسكنر نوري يا ابزارهاي نگارشي منجر به ايجاد قطعه خط هاي گسسته ،اتصال بين خطوط ،فضاهاي خالي در خطوط متن ،پر شدن حفره هاي موجود در تص وير برخ ي حروف و غيره م ي گردد .همچنين اعوجاج هاي مختل ف شام ل تغييرات محل ي ،منحن ي شدن گوش ه هاي حروف ،تغيير شكل و يا خوردگي حروف را نيز بايستي مد نظر قرار داد. تحليل بخشهاي مختلف پیش پردازش 17 كاهش نويز تحليل بخشهاي مختلف پیش پردازش 18 نرماليزه كردن داده ها 19 نرماليزه كردن كجي متن و استخراج خطوط زمينه هموارسازي كانتور نرماليزه كردن اريب شدگي نرماليزه كردن (تغيير مقياس دادن) اندازه تحليل بخشهاي مختلف پیش پردازش نرماليزه كردن كجي متن و استخراج خطوط زمينه به دلیل بی دقتی در مرحله اسکن یا بی دقتی نویسنده در هنگام نگارش متن دست نوشت ،ممکن است خطوط متن نسبت به تصویر ،اندکی انحراف یا چرخش داشته .باشند آشکارسازي خط زمینه در بسیاري از تکنیک هاي قطعه بندي و بازشناسی متون .فارسی عربی التین ،نقش اساسی دارد نرماليزه كردن داده ها 20 نرماليزه كردن اريب شدگي در متون چاپ ي فارس ي و التين ،كاراكترهاي داراي فرم ت ايتاليك از راس تاي عمود انحراف دارند .همچنين در متون دس تنويس برخ ي از نويس نده ه ا حروف را بص ورت زاويه دار مي نويسند .اين شناخته مي شود و مي تواند دقت برخي از الگوريتم هاي قطع ه بندي « اريب شدگ ي » پديده تح ت عنوان يا بازشناس ي را تح ت تأثير قرار دهد و لذا در اين سيستم ها الزم است كه در مرحلة پيش پردازش ،ميزان اريب بودن كاراكترها شناسايي و تصحيح گردد. نرماليزه كردن داده ها 21 نرماليزه كردن (تغيير مقياس دادن) اندازه در سيستم هاي OCRاغلب تصاوير كلمات خيلي كوچك يا خيلي بزرگ ،به يك اندازة اس تاندارد نرماليزه م ي شوند .ت ا بدی ن ترتی ب عملیات بازشناسی، مستقل از اندازه فونت متن گردد. اين عمل معموال با نمونه برداري مجدد ٢تصوير انجام ميگيرد روش هايي نظير Bilinearيا Bicubicبر روي تصاوير سطح خاكستري به نحو مناسبي عمل ميكنند. نرماليزه كردن داده ها 22 هموارسازي كانتور خط تشکی ل دهنده مرز یک کاراکت ر را کانتور آ ن کاراکت ر گویند .در متون دست نوشت ،به واسطه لرزش یا حرکت ناخواسته دست نویسنده در هنگام نگارش ،ممکن است که کانتور حروف ناصاف شود. روشهاي هموارس ازي كانتور بمنظور ج بران اين نقيص ه مورد اس تفاده قرار ميگيرند. بطور كل ي هموارس ازي كانتور تعداد نقاط نمون ة مورد نياز براي بازنمايي كاراكت ر را كاهش ميدهد و در نتيجه كارايي مراحل پردازشي باقيمانده را بهبود مي بخشد. نرماليزه كردن داده ها 23 فشرده سازي تكنيك های متعارف فشرده سازي: باينري (دوسطحي) كردن تصوير متن نازك سازي تحليل بخشهاي مختلف پیش پردازش 24 باينري (دوسطحي) كردن تصوير متن تص اویر دیجیتال ب ه یک ی از س ه ص ورت تص اویر رنگ ی ،تص اویر خاکس تري ( مشاب ه تصویر یک تلویزیون سیاه و سفید که رنگ تصویر به صورت سیاه و سفید و طیفی از رنگ هاي خاکستري ظاهر می شود ) و تصاویر دوگانی یا دو سطحی ( مشابه تصویر یک سند فکس شده که رنگ پیکسل هاي تصویر ،تنها سیاه یا سفید است) می باشند. تکنیکهای فشرده سازي 25 نازك سازي اين عمل درحاليكه كاهش قابل مالحظه اي در حجم داده ها ايجاد ميكند ،اطالعات شكلي كاراكتر را نيز استخراج .مي نمايد :دو روش پايه براي نازكسازي عبارتند از نازكس ازي از طريق پيكس ل :بص ورت محلي و تكراري تص وير را مورد پردازش قرار م ي ده د ت ا وقت ي كه از تصوير كاراكتر تنها اسكلت آن به عرض يك پيكسل باقي .بماند نازكسازي بدون پيكسل :طي فرايند نازك سازي مقداري از اطالعات س راسري دربارة كاراكت ر را مورد اس تفاده قرار .مي دهند تکنیکهای فشرده سازي 26 قطعه بندي ( جداسازي ) قطع ه بندي عبارت اس ت از روش هايي كه بخ ش هاي مختلف ي همچون پاراگراف ه ا، جمالت يا كلمات ،و حروف را از تص وير س ند .استخراج مي نمايند OCRنقطه تمایز اصلی میان سیستم هاي فارس ی و التی ن براي متون چاپ ی ،در مرحله .قطعه بندي درونی نهفته است قطع ه بندي غل ط كاراكتره ا ،عام ل بس ياري از است OCRخطاهاي بخشهاي مختلف يك سيستم OCR 27 استخراج ویژگي ها (بازنمایي) است؛ چرا که OCRاین مرحله یکی از مراحل بسیار با اهمیت در سیستم هاي .نتایج حاصل از این مرحله ،مستقیما بروي کیفیت مرحله بازشناسی اثر می گذارد در مرحله بازنمایی ،به هر الگوي ورودي یک کد یا بردار ویژگی نسبت داده می شود که معرف آن الگو در فضاي ویژگی ها است و آن را از دیگر الگوها متمایز می .سازد بخشهاي مختلف يك سيستم OCR 28 طبقه بندي یا بازشناسي این مرحله شامل روش هاي براي متناظر ساختن هر یک از الگوهاي بدست آمده از مرحله استخراج ویژگی ها ،با یکی از کالس هاي فضاي الگو مورد بحث است که از طریق کمینه ساختن فاصله بردار ویژگی هاي هر الگوي ورودي نسبت به یکی از .بردارهاي مرجع انجام می گیرد بخشهاي مختلف يك سيستم OCR 29 بكارگیري اطالعات جانبي( پس پردازش) در ای ن مرحل ه ب ا اس تفاده از اطالعات جانب ی ( نظی ر مجموع ه لغات معتبر، اطالعات آماري مربوط به رخداد حروف ،اطالعات دستوري و معنایی ) سعی در بهبود نتایج حاصل از مرحله بازشناسی می گردد. درصورت فراهم شدن اطالعات معناشناختی ،دقت نتایج بازشناسی ب ه نحو چشمگیري افزایش می یابد. بخشهاي مختلف يك سيستم OCR 30 الگوریتم جداسازی و شناسایی حروف تایپی جداسازی حروف جداسازی کلمات 31 جداسازی سطرها جداسازی سطرها متداولترین الگوریتمی که تا کنون براي جداسازي سطرهاي متن ارائه شده است از .نماي عمودي تصویر متن بهره می گیرد در این الگوریتم ابتدا نماي عمودي یک صفحه از متن رسم میگردد .نقاط مینیمم این نمودار ،مشخص کننده محل جداسازي سطرها از یکدیگر هستند .در حالت هایی که تص ویر متن کامال افق ی و ی ا نزدیکت ر ب ه افق ی باشد ، .این الگوریت م ب ه خوبی کار میکند ،اما در حالت هایی که تصویر متن چرخیده باشد این الگوریتم قادر نخواهد بود سطرهاي متن را ازیکدیگر جدا کند 32 33 نحوه جداسازی سطرهای متن به کمک نمای عمودی جداسازی کلمات براي جداسازي کلمات هر سطر عموما از نماي افقی سطر استفاده شده است .در این روش ابتدا نماي افقی یک سطر از متن رسم میگردد .نقاطی که ارتفاع نماي افقی در آنها از یک .مقدارآستانه اي کمتر باشد ،به عنوان محل جداسازي کلمات تلقی می شوند 34 این روش الزاما" کلمات را از یکدیگر جدا نمیکند بلکه اجزایی را جدا میکند که در امتداد عمودي یکدیگر را نپوشانده باشند .هریک از این اجزا ممکن است یک کلمه کامل یا بخشی از یک کلمه باشد. 35 جداسازی حروف براي شناسایی حروف تشکیل دهنده زیر کلمات باید ابتدا آنها را از یکدیگر جدا کنیم . :الگوریتم جداسازي حروف الفباي فارسی دو وظیفه بر عهده دارد .الف) جداسازي حروفی که به حرف ما بعد خود نمی چسبند اما با آن همپوشانی دارند .ب) جداسازي حروفی که به حرف ما بعد خود می چسبند 36 كاربردهاي OCR جـداکردن نامه ها در مراکز پست دسته بندی چکهای بانک 37 ارتباط بین انسان و ماشین با استفاده از خودکار تبدیل کتاب‌ها یا اسناد اسکن شده به فایل‌های متنی و تصاویر 38 کمک به خواندن افراد نابینا تبدی ل حروف و نوشت ه های خط ی ،ب ه خط بریل (مخصوص نابینایان) دانست و ب ه ای ن ترتی ب هم ه نوشت ه های بش ر توس ط نابینایان قاب ل خوانده شدن .است 39 نتیجه گیری تسهیل در روند کاری در وقت و هزینه را در اداره و سازمان ها با سرعت بیشتر پیش می رود. افزایش چشمگیر سرعت دسترسی به اطالعات؛ کاهش فضاي ذخیره سازي 40 منابع پایان نامه باز خوانی نوری حروف (OCRموسی غریبی) پردازش تصویر و معرفی تکنیک های استفاده از آن (حسن جباری و امین ثابت قدم اصل) 41

51,000 تومان