2012-01-04 8 views
1

Я пытаюсь использовать Tesseract-OCR для обнаружения текста изображений с чистым текстом в нем, но в этом тексте есть собственный шрифт под названием Journal.Tesseract OCR - Рукописный шрифт

Пример:

enter image description here

Результат не самый лучший:

Maxima! размер` W (35)

Есть ли возможность улучшить результат или, точнее, получить точный результат?

ответ

0

Как Эндрю Наличный упоминалось, это будет очень трудно выполнить OCR для этого T письма из-за ее пересечения с рядом следующих символов.

Для улучшения результатов вы можете попробовать более точный SDK. Взгляните на ABBYY Cloud OCR SDK, это облачный OCR SDK, недавно запущенный ABBYY. Он находится в стадии бета-тестирования, поэтому на данный момент он полностью свободен в использовании. Я работаю @ ABBYY и могу предоставить вам дополнительную информацию о наших продуктах, если это необходимо. Я послал изображение, которое вы прикрепленные к нашему SDK и получил такой ответ:

Maximal size: lall (35) 
+2

Чтобы быть справедливым, вопрос название упоминает Тессеракт подразумевающий он спрашивает, как выполнить это * с Tesseract *. – Skrylar

3

Я удивлен, что Tesseract делает это хорошо. С небольшим количеством тренировок вы должны быть способны правильно обучать нижний регистр «l».

Основная проблема, с которой вы сталкиваетесь, - это верхняя часть большого символа T. Горизонтальная линия распространяется на 2 (возможно, 3) других символьных ячеек, и это вызовет проблему для любого механизма OCR, когда он попытается сегментировать символы для распознавания. Обучение может помочь в этом случае.

Следующая проблема. и: очень легкие/тонкие и, возможно, удаляются с предварительной обработкой изображения до начала OCR.

В целом, единственным шансом улучшить результаты с помощью Tesseract было бы исследование обучения. Вот некоторые ссылки, которые могут помочь.

Alternative to Tesseract OCR Training?
Tesseract OCR Library learning font
Tesseract confuses two numbers