После того как вы попробовали много разных шрифтов и OCR-двигатели Я хотел бы получить наилучшие результаты, используя Consolas. Это моноширинный шрифт, такой как OCR-A, но легче читать для людей. Консола входит в состав нескольких продуктов Microsoft.
Существует также с открытым исходным кодом шрифта Inconsolata ап, который под влиянием Consolas. Inconsolata - хорошая замена для Consolas, особенно учитывая детали лицензирования.
В моих тестах цифры и пробелы в шрифте Calibri не всегда распознавались должным образом. OCR-A дал много ошибок при чтении. Я не давал MIRC попробовать, так как это нелегко прочитать для большинства людей.
Примечание: tesseract требует много испытаний и точной настройки перед надежностью. В нашем случае мы перешли на коммерчески лицензированный OCR-движок (ABBYY), особенно потому, что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.
Обновление: 2017 31 января - Изменены 'на основе Consolas' на 'под влиянием Consolas' из-за потенциальных проблем авторского права.
А? Почему спуск? Даже пояснительный комментарий? – benjismith 2008-11-25 01:23:14
MICR был разработан для идеального чтения с магнитной технологией, а не оптически. Хотя это неплохо, это далеко не идеально подходит для OCR. – Sparr 2008-11-25 01:23:24
В фильме было какое-то интересное, относящееся к MICR: «Поймай меня, если сможешь». – erickson 2008-11-25 01:55:07