2008-11-25 8 views
25

Есть ли у кого-нибудь опыт работы с разными шрифтами для OCR? Я генерирую идентификатор, а затем пытаюсь отсканировать его с помощью tesseract. На данный момент я просто T & E'n разные шрифты, но это кажется довольно неэффективным. Я пробовал семейство шрифтов OCR * и других других, таких как Arial и Georgia. Тессеракт имеет тенденцию путаться с шрифтами OCR *.Каков идеальный шрифт для OCR?

Есть ли шрифты, специально предназначенные для tesseract, или любой системный шрифт, который хорошо работает с ним?

ответ

16

Хорошо, поиск по Google приходит с этим, специфический OCR шрифта: OCR Font

Похоже, это стандарт, принятый в 1973 году

4

Я бы, вероятно, использовать один и тот же шрифт, что банки используют для чисел маршрутизации в нижней части проверки:

http://morovia.com/font/micr.asp

Он был специально разработан, чтобы быть однозначно машиночитаемой.

+0

А? Почему спуск? Даже пояснительный комментарий? – benjismith 2008-11-25 01:23:14

+3

MICR был разработан для идеального чтения с магнитной технологией, а не оптически. Хотя это неплохо, это далеко не идеально подходит для OCR. – Sparr 2008-11-25 01:23:24

+0

В фильме было какое-то интересное, относящееся к MICR: «Поймай меня, если сможешь». – erickson 2008-11-25 01:55:07

2

Я всегда успех, просто используя Times New Roman.

5

Я считаю, что Calibri работает лучше всего для меня. Мы ежедневно используем программное обеспечение OCR в автоматизированной системе и после тестирования десятков шрифтов (включая некоторые специфичные для OCR), что Calibri всегда лучше.

Удачи.

12

После того как вы попробовали много разных шрифтов и OCR-двигатели Я хотел бы получить наилучшие результаты, используя Consolas. Это моноширинный шрифт, такой как OCR-A, но легче читать для людей. Консола входит в состав нескольких продуктов Microsoft.

Существует также с открытым исходным кодом шрифта Inconsolata ап, который под влиянием Consolas. Inconsolata - хорошая замена для Consolas, особенно учитывая детали лицензирования.

В моих тестах цифры и пробелы в шрифте Calibri не всегда распознавались должным образом. OCR-A дал много ошибок при чтении. Я не давал MIRC попробовать, так как это нелегко прочитать для большинства людей.

Примечание: tesseract требует много испытаний и точной настройки перед надежностью. В нашем случае мы перешли на коммерчески лицензированный OCR-движок (ABBYY), особенно потому, что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.

Обновление: 2017 31 января - Изменены 'на основе Consolas' на 'под влиянием Consolas' из-за потенциальных проблем авторского права.

0

В настоящее время используется Monospace. Пробовал очень много шрифтов, но это самый точный для меня.

1

Я недавно провел обширное тестирование в ECM под названием Laserfiche, в котором используется Nuance OmniPage, и я обнаружил, что моноширинные шрифты плохо работают по сравнению с динамически разнесенными шрифтами. Эти старые шрифты OCR не работают, а также более «нормальные» шрифты. Особенно для строк чисел при меньших размерах шрифта, таких как точка 12.

Странно, что кто-то еще успевает с Калибри. Это было очень плохо в моих тестах, регулярно получая похожие письма и цифры, смущенные друг для друга. Лучшие шрифты (среди тех, которые поставляются на компьютере под управлением Windows с установленным Office) были Consolas, Verdana и Book Antiqua. Все динамические шрифты с засечками, в которых буквы и цифры выглядели отчетливо. Консолас был чемпионом.