Ну я использую исполнила .NET-версии этого OCR, которая может быть найдена @http://www.pixel-technology.com/freeware/tessnet2/Tesseract OCR библиотека - Обучение Шрифт
У меня он работает, однако цель этого заключается в переводе номерных знаков, печально двигатель действительно не точно перевести некоторые буквы, например, здесь это изображение я просмотрел, чтобы определить проблемы, характер
Результат:
12345B7B9U ABCDEFGHIJKLMNUPIJRSTUVHXYZ
Поэтому следующие символы переводятся неправильно:
1, O, Q, W
Это не кажется слишком плохо, но на моих номерных знаков, в результате ISN» т так велика:
= H4 ODM
= ЛДГ IFW
Поддельного тест
= NR4 y2k
Как вы могли бы сказать, что я пытался шумоподавление, увеличение контрастности и удаление пикселей, которые не являются абсолютно черным, без каких-либо реальных улучшений.
Очевидно, вы можете «изучить» новые шрифты, но мне кажется, что мне нужно будет перекомпилировать библиотеку для .NET, также кажется, что это выполняется на ОС Linux, которой у меня нет.
http://www.scribd.com/doc/16747664/Tesseract-Trainingfor-Khmer-LanguageFor-Posting
Так что я застрял в том, что попробовать дальше, я написал небольшой консольное приложение исключительно для целей тестирования, если кто-то хочет попробовать. Если у кого-нибудь есть идеи/графические манипуляции/мысли библиотеки, я был бы рад услышать их.
Вот еще одна проблема: O и 0 имеют экскавацию той же формы, поэтому механизм OCR не может распознать их правильно. –
Да, я заметил, что не могу поверить, что они имеют одинаковую форму. В любом случае, я уже думал о методе работы с этим внешним OCR, так что это np. – Ash
@ Мартин Турау: неправильно! В текстовом шрифте 0 и O отличаются большую часть времени - счастливо! Поэтому, если вы делаете специальное обучение для этого шрифта, вы должны иметь возможность различать их, это мой случай. Конечно, это может быть намного сложнее, если вы заранее не знаете шрифтов. – Emmanuel