2016-12-01 12 views
1

Я сделал программу в java, которая читает символ из отсканированного изображения Tiff, но точность не так хороша.Как тренировать tesseract-ocr одной цифры с тремя разными почерками?

Если мы изменим рукописный ввод в документе, результат будет немного иным. Так есть ли какой-нибудь метод, который тренирует tesseract-ocr?

Я также использовал jtessEditorBox, но в этом нет ничего полезного.

ответ

0

Я предлагаю вам вырыть этот пост: http://www.tuxrincon.com/blog/training-tesseract-ocr/

Получить фотографии для каждого почерка. Связанные коробки с символами с использованием «Редактор QT Box» на нескольких изображениях. Затем дайте им tesseract, чтобы обучить его с помощью скрипта train.sh (можно исправить несколько ошибок в нем). Я не использовал «train2.sh», потому что это кажется контрпродуктивным в моем случае. Добавьте все созданные файлы рукописного ввода в файлы конфигурации tesseract. Вы можете изменить конфигурацию «QT Box Editor», чтобы настроить почерк на другом языке.