2015-06-17 5 views
3

Я пытаюсь обнаружить арабские цифры (арабский - знак) из изображения.Идентификация арабского номера

Пробовал Тессеракт OCR он не работал для меня (это признают арабские слова, но не цифры) здесь есть образ я хотел бы, чтобы извлечь номер страницы из него (вверху страницы)

enter image description here

Я попробовал imagemagick сравнить это изображение с меньшими уже сделанными маленькими изображениями, которые содержат все возможности номеров книг, но это тоже не сработало, и я думаю, что это займет так много времени.

Какой будет практическое не комплексное решение? PS: изображение будет с телефонов Android и будет разобрано на окнах или сервере linux.

ответ

0

На самом деле, Tesseract - недействительное решение вашей проблемы или коммерческого арабского OCR. Вам нужно иметь специальное решение для распознавания текста, которое вы можете обучать своим образцам и указать свои особые правила обработки.

Вы все еще можете использовать Tesseract, но в форме своего исходного кода и обучающих инструментов для самостоятельного создания собственного решения. Чтобы настроить Tesseract для арабского языка, вы можете найти эту ссылку полезной arabicocr.wordpress.com