2016-08-08 7 views
1

Я использую библиотеку Microsoft OCR для чтения текста.Распознать шрифт Micr с помощью OCR Engine?

Библиотека Microsoft OCR отлично работает. Однако я хочу прочитать следующий список символов, указанный в ссылке http://www.ict4u.net/databases/database-images/micr.jpg. Есть ли способ, которым я могу обучить библиотеку OCR читать следующие символы или есть язык, который позволяет читать следующие символы.

+0

Этот вопрос не должен быть помечен как Silverlight. Microsoft OCR - это функция Windows 10, которая также может использоваться в приложениях «Хранилище» и в приложении «Рабочий стол». – Elmue

ответ

1

Я работаю с Microsoft OCR некоторое время. По сравнению с Tesseract он имеет очень базовые функции.

Например, Microsoft OCR возвращает слова и строки. Но линии - чепуха. Случайно 2 или 3 слова сгруппированы вместе как «строка», но они не являются реальной линией. И «линии» полностью неупорядочены. В этом аспекте это хуже, чем Tesseract. Вы должны взять координаты каждого слова и заказать их самостоятельно.

Microsoft не возвращает прямоугольники символов, и нет абсолютно никакого способа настроить или настроить Microsoft OCR в любом случае. Вы можете добавить языки с Windows Update для «Basic Typing» = OCR (см. http://www.thewindowsclub.com/install-uninstall-languages-windows-10), но вы не можете обучать свои собственные языковые данные.

MSDN говорит, что следующие 25 языков поддерживаются с разной точностью:

  • Отлично: чешский, датский, голландский, английский, финский, французский, немецкий, венгерский, итальянский, норвежский, польский, португальский, румынский , Сербская кириллица, сербская латынь, словацкая, испанская и шведская.
  • Очень хорошо: китайский упрощенный, греческий, японский, русский и турецкий.
  • Хорошо: китайский традиционный и корейский.

Качество распознавания очень похоже на Tesseract. У него даже те же проблемы, что и у Tesseract. Некоторые отдельные символы не распознаются (отдельные символы, такие как одиночный '$'), и у него такая же огромная проблема, что и звездочки как Tesseract. Также он вставляет места в неправильные места, как это делает Tesseract. Поэтому я спрашиваю себя, использует ли Microsoft Tesseract под капотом?

Однако Microsoft OCR имеет преимущество перед Tesseract: предварительная обработка изображений намного лучше. Неважно, если у вас есть красный текст на желтом фоне или белый текст на черном. Это уловка для Tesseract, для которой требуется черно-белое изображение хорошего качества в качестве входного сигнала.

Для обеих библиотек OCR применяются: Если у вас проблемы с распознаванием, попробуйте усилить изображение. Даже размытие изображения может быть очень хорошим, потому что это устраняет шум изображения.

+0

Моя основная цель - прочитать только нижнюю часть проверки http://blog.elearnmarkets.com/wp-content/uploads/2016/01/Self-cheque-1024x460.jpg, которая содержит полосу MICR с http://www.ict4u.net/databases/database-images/micr.jpg следующий шрифт на телефоне Windows. Должен ли я использовать tesseract или есть способ сделать это в Microsoft OCR? – Cloy

+0

Почему вы задаете столько вопросов? Просто попробуйте! Но я уверен, что простой движок OCR НЕ распознает шрифты MICR.Как вы думаете, сколько процентов пользователей Windows хотят читать шрифты MICR, кроме вас? И кто еще работает с устаревшими проверками в 2016 году? Мы живем в эпоху электронного платежа. Проверки мертвы с десятилетия. Я не пользовался чеком около 20 лет. И почему вы вообще хотите прочитать код MICR? Почему вы не читаете обычный текст на чеке? – Elmue

2

[Microsoft OCR crew here] Мы еще не поддерживаем обучение OCR, чтобы настроить его для ваших прецедентов. Тем не менее, мы активно следим за stackoverflow, чтобы увидеть, что нужно разработчикам, поэтому мы можем продолжать улучшать движок OCR.

+0

Из 25 поддерживаемых языков какой-либо из языков распознает эти http://www.ict4u.net/databases/database-images/micr.jpg шрифты? – Cloy

+0

@ Корнелия: Хорошо. Если вы хотите улучшить движок OCR, вы можете сделать несколько вещей. 1.) Выведите текст в правильном порядке. Это означает, что верхний левый нижний правый и не все слова в случайном порядке. И составьте слова, чтобы исправить строки. 2.) Почему OCR не распознает звездочки правильно? Например. текст типа «*** 123» вообще не реконструируется. После удаления звездочек «123» распознается внезапно. 3.) Почему иногда один символ распознается правильно, а в другом месте тот же символ опущен? Если вам нравится, я могу отправить вам образцы изображений с неправильными результатами. – Elmue

+0

Нет ответа. Я вижу, что Microsoft не заинтересована в улучшении своих продуктов. – Elmue