2016-11-19 20 views
2

У меня довольно простые фотографии, но tesseract не дает правильных ответов.Точность увеличения tesseract Python для OCR

код:

pytesseract.image_to_string(image, lang='eng') 

enter image description here

Пример картина дает результат

SARVN PRIM E N EU ROPTICS\nBLU EPRINT 

Я также пытался добавить свои собственные слова в словарь, если он делает что-то лучше, но все еще нет.

pytesseract.image_to_string(image, lang='eng', config="--user-words words.txt") 

Мой список слов выглядит следующим образом

SARYN 
PRIME 
NEUROPTICS 
BLUEPRINT 

Как я должен подойти к решению проблемы, может быть, я должен преобразовать изображение до предсказания? Цвет текста может варьироваться между двумя цветами, но фон всегда черный.

ответ

1

Попробуйте инвертировать изображение, а затем выполнить процесс бинаризации/порогового значения, чтобы получить черный текст на белом фоне, прежде чем использовать попытку OCR.

См. this post советы по бинаризации изображения в Python.

Конечно, чем лучше качество и четкость текста во входном изображении, тем лучше будут результаты OCR.

Я использовал внешний инструмент, чтобы изменить его на черный на белом и получил изображение ниже.

Inverted and Binarized