shadidsoft.com

برنامج tesseract-ocr لاستخراج النصوص من الصور على نظام لينكس

برنامج tesseract-ocr هو برنامج لاستخراج النصوص من الصور إلى ملف نصي text لنسخها والتعديل عليها، مجاني ومفتوح المصدر، يعمل على أنظمة ويندوز وماك ولينكس.

 

برنامج tesseract-ocr سهل الاستخدام، ومفيد لِمَن لديه ملفات خاصة للعمل عليها بدون انترنت كبديل عن مواقع الانترنت والتطبيقات الاحتكارية.

 

برنامج tesseract-ocr يتميز بدعمه للغة العربية بدقة عالية.

 

برنامج tesseract-ocr يعمل من خلال سطر الأوامر، ولا توجد واجهة رسومية للبرنامج.

 

🔗المصدر:

https://github.com/tesseract-ocr/tesseract#dependencies

 

🔗مصادر تحميل البرنامج:

 

نظام لينكس:

https://github.com/tesseract-ocr/tesseract/wiki#linux

 

نظام ويندوز:

https://github.com/UB-Mannheim/tesseract/wiki

 

نظام ماك (يتطلب تثبيت برنامج Homebrew):

https://brew.sh/index_ar

https://github.com/tesseract-ocr/tesseract/wiki#macos

 

عيوب البرنامج:

1) يعمل من خلال سطر الأوامر فقط، ولا توجد واجهة رسومية للبرنامج.

 

2) أسماء الملفات العربية لا يتم تحويلها إلى نص إلا إذا كانت بأسماء انجليزية.

 

3) عند تحويل نصوص عربية ومعها نصوص انجليزية (كلمات أو أحرف) فإنها تظهر على شكل رموز!

 

4) لا يدعم تحويل ملفات PDF إلى ملف نصي ؛ لذلك الحل كالآتي:

 

بعد تجربة طريقة مفيدة وهي : –

تصوير صورة لصفحة ملف PDF على سبيل المثال، ثم تحويل الصورة عبر برنامج tesseract-ocr إلى ملف نصي text، والنتيجة كانت كالآتي:

 

قبل:

بعد:

 

مثال آخر:

كتبنا نص على ملف وورد، ثم حولنا الملف إلى صيغة PDF، بعدها تم أخذ صورة من الملف وحفظها بصيغة png، وأخيرا تم تحويل الصورة عبر برنامج tesseract-ocr إلى ملف نصي text، والنتيجة كانت كالآتي:

 

شرح تثبيت واستخدام البرنامج على نظام جنو/لينكس (Ubuntu/Debian):

 

أولاً: تثبيت البرنامج من مركز البرامج (مستودع البرامج) بكتابة اسم البرنامج الآتي:

tesseract-ocr

 

أو افتح الطرفية واكتب الأمر الآتي للتثبيت:

‫‪sudo‬‬ ‫‪apt-get‬‬ ‫‪install‬‬ ‫‪tesseract-ocr‬‬

 

‫‬‬

ثانياً: تثبيت حزمة اللغة العربية عبر الأمر الآتي:

‫‪sudo‬‬ ‫‪apt-get‬‬ ‫‪install‬‬ ‫‪tesseract-ocr-ara‬‬

 

ثالثاً: شرح استخراج النصوص (أي تحويل النصوص) من الصور إلى صيغة ملف نصي text عبر سطر الأوامر (الطرفية):

 

حدد اسم المجلد الذي حفظت فيه الصورة، ثم افتح الطرفية واكتب:

ls

 

ستظهر لك أسماء المجلدات، انسخ اسم المجلد الذي حفظت فيه الصورة، ثم اكتب cd بعدها اسم المجلد:

cd name

 

هنا استبدل كلمة name باسم المجلد.

 

اكتب أمر الاستخراج (التحويل)، وهنا طريقتين:

 

لاستخراج نصوص اللغة العربية اكتب:

tesseract file.png file -l ara

 

لاستخراج نصوص اللغة الانجليزية اكتب:

tesseract file.png file

 

هنا استبدل كلمة file.png باسم صورة ملفك، وذلك بنسخه بالكامل مع صيغة الصورة، ثم استبدل كلمة file بأي اسم تُريد.

 

عند استبدال كلمة file.png باسم صورة ملفك يجب أن يكون الاسم باللغة الانجليزية لتنجح عملية الاستخراج (التحويل).

 

مثال:

tesseract TECH.jpg laptop -l ara

 

افتح المجلد الذي حفظت فيه الصورة، ستجد الملف النصي text قد تم استخراجه (تحويله).

 

 

عن

هذا الموقع يستخدم Akismet للحدّ من التعليقات المزعجة والغير مرغوبة. تعرّف على كيفية معالجة بيانات تعليقك.

%d مدونون معجبون بهذه: