مصایب علمی
تجربیات من در مواجه به مصایب علمی(هدف جمع اوری ارشیوی از تجربیات است برای رجوع خودم در اینده حالا اگر این شلخته نویسی ها به درد کسی هم خورد فبها المراد!)

پرونده کاربردی در استفاده از موتور tesseract

این موتور یکی از بهتری انتخاب ها برای او سی ار متون انگلیسی است. گوگل خیرخواه(!) بعد از اونکه در سال ۲۰۰۶ کدش را از اچ پی خرید توی ۲۰۱۲ اوپن سورسش کرد .در حال حاضر با یک مقدار محدودی در رتبه دوم بعد از گوگل درایو در او سی ار متون فارسی است. اما هر جفتش کلی خطا داره.

مراحل نصبش را حسنا ر زحمت کشید داکیومت کرد  که در  لینک زیر هم قابل دسترسی است:

https://github.com/tesseract-ocr/tesseract/wiki/Compiling

لکن من لیپتونیکای ۱.۷۴ را  از قسمت Compilationگیت کردم و فایل rarرا نصب نکردم.

طبق همون دستورات تا ته رفتم هرچند توی فاز :

sudo ldconfig
به خطای زیر خوردم:
/sbin/ldconfig.real: /usr/local/cuda-7.5/lib64/libcudnn.so.4 is not a symbolic link
لکن بی خیالی طی کردیم و ادامه ماجرا را تا زیر رفتیم:
make training
sudo make training-install
فایل اموزش فارسی را همبا همون tessdataکه در ادرس usr/local/share/بودریختیم.(داکیومنت حسنا)

بعد از انکه طبق داکیومنت حسنا برنامه باکسساز jeytessboxeditorرا هم نصب کردیم برای فایل های فارسی فایل trتولیدی خالی تولید میشد!

بعد از تلاش های متفاوت به این نتیجه رسیدیم که اشکال از فونت dialogبود.
فونت را به dialoginputتغییر دادیم tr هم فایلش کامل تولید شد

نتیجه گیری:
۱)باید مساله حساسینت به فونت در نرم افزار باکسساز حل بشه
۲) باید یک راهی باشه که بدون تبدیل تصویر به فرمت tifهم بشه tesseractرا اموزش داد
۳)امروزم هم با دکتر جلسه داریم خدا کنه بیاد!



 



           
سه شنبه 10 اسفند 1395برچسب:, :: 15:18
athar

درباره وبلاگ


به وبلاگ من خوش آمدید
آخرین مطالب
نويسندگان
پيوندها

تبادل لینک هوشمند

برای تبادل لینک ابتدا ما را با عنوان حرف هایی برای نگفتن و آدرس maneshgham.LXB.ir لینک نمایید سپس مشخصات لینک خود را در زیر نوشته . در صورت وجود لینک ما در سایت شما لینکتان به طور خودکار در سایت ما قرار میگیرد.








نام :
وب :
پیام :
2+2=:
(Refresh)

خبرنامه وب سایت: