Как дать лучший шанс на успех программного обеспечения OCR?

Я использую Tesseract OCR (через pytesser) и PIL (Библиотека изображений Python) для автоматического тестирования приложения.Как дать лучший шанс на успех программного обеспечения OCR?

Я проверяю, что отображаемый текст в порядке, сделав снимок экрана и получив текст благодаря tesseract.

У меня были некоторые проблемы в начале и, похоже, они улучшались, так как я увеличил размер снимка экрана благодаря бикубической интерполяции PIL.

К сожалению, у меня все еще есть некоторые ошибки, такие как путаница между «0» и «O». Я могу представить, что у меня будут другие подобные проблемы в будущем.

Я хотел бы знать, есть ли какие-то методы для подготовки изображения, чтобы помочь OCR. Любая идея приветствуется.

Заранее спасибо

источник

2009-08-26 luc

Если этот вопрос по-прежнему актуален: Имеет ли это быть Тессеракт? Существуют OCR-движки (такие как ABBYY), которые отлично подходят для низкокачественных входных изображений и автоматически выполняют предварительную обработку изображений для вас. Существует REST API для OCR, который использует движок ABBYY по адресу http://www.wisetrend.com/wisetrend_ocr_cloud.shtml - у него есть бесплатная пробная версия, поэтому вы можете попробовать несколько изображений для себя –

Shameless плагин и отказ от ответственности: my company пакеты Тессеракта для использования в .NET

Тессеракт является OK двигатель OCR. Он может пропустить много и легко смущается нетекстовым. Лучшее, что вы можете сделать для этого, это убедиться, что он получает только текст. Следующее лучшее - дать ему что-то безопасное бинаризованное (адаптивный или динамический порог, чтобы добраться туда) или оттенки серого, и пусть он пытается сделать бинаризацию.

источник

2009-08-26 18:56:15 plinth

Я согласен с этим. Он был смущен краем диалогового окна и преобразован в «я». Когда он получает только текстовые изображения, он делает хорошую работу. бинаризация также является хорошей идеей. Благодарю. – luc

Для различения между 0 и O, один простое решение, чтобы выбрать шрифт, который отличает между обоими (например: 0 имеет тире или точку в его центре). Будет ли это приемлемо в вашей заявке?

Еще одно решение - применить шаг на основе словаря после индивидуального анализа текста - подавать распознанный текст в какую-либо форму проверки орфографии или валидатора для различения сложных символов.

Например, круглый символ, за которым следуют другие числа, скорее всего будет равным нулю, в то время как тот же символ, за которым следуют буквы, скорее всего, станет столицей o. Это тривиальный пример, но он показывает, как контекст необходим для создания более надежной системы распознавания.

источник

2009-08-26 15:36:09 Kena

К сожалению, у меня нет контроля над шрифт. Не могли бы вы объяснить немного больше, что вы подразумеваете под словом на основе словаря? – luc

Даже в лучших условиях варианты OCR будут подкрадываться к вам. Ваш лучший вариант будет заключаться в том, чтобы проектировать ваши тесты, чтобы быть в курсе их.

источник

2009-08-26 15:44:59

Поезд тессеракт распознавать ваш шрифт
Сделайте изображение экстра чистый и достаточно свободного пространства вокруг символов
Profit :)

Вот несколько примеров реального мира.

Первого изображения исходное изображение (croped номер измерителя мощности)
Второго изображения слегка очищено изображение в GIMP, около 50% точности распознавания текста в тессеракте
Третьего изображения полностью очистить изображение - 100% OCR признанный без какой-либо подготовки!

enter image description here

источник

2013-11-05 12:17:16 valentt

Как дать лучший шанс на успех программного обеспечения OCR?

ответ

Смежные вопросы