Я работаю с Microsoft OCR некоторое время. По сравнению с Tesseract он имеет очень базовые функции.
Например, Microsoft OCR возвращает слова и строки. Но линии - чепуха. Случайно 2 или 3 слова сгруппированы вместе как «строка», но они не являются реальной линией. И «линии» полностью неупорядочены. В этом аспекте это хуже, чем Tesseract. Вы должны взять координаты каждого слова и заказать их самостоятельно.
Microsoft не возвращает прямоугольники символов, и нет абсолютно никакого способа настроить или настроить Microsoft OCR в любом случае. Вы можете добавить языки с Windows Update для «Basic Typing» = OCR (см. http://www.thewindowsclub.com/install-uninstall-languages-windows-10), но вы не можете обучать свои собственные языковые данные.
MSDN говорит, что следующие 25 языков поддерживаются с разной точностью:
- Отлично: чешский, датский, голландский, английский, финский, французский, немецкий, венгерский, итальянский, норвежский, польский, португальский, румынский , Сербская кириллица, сербская латынь, словацкая, испанская и шведская.
- Очень хорошо: китайский упрощенный, греческий, японский, русский и турецкий.
- Хорошо: китайский традиционный и корейский.
Качество распознавания очень похоже на Tesseract. У него даже те же проблемы, что и у Tesseract. Некоторые отдельные символы не распознаются (отдельные символы, такие как одиночный '$'), и у него такая же огромная проблема, что и звездочки как Tesseract. Также он вставляет места в неправильные места, как это делает Tesseract. Поэтому я спрашиваю себя, использует ли Microsoft Tesseract под капотом?
Однако Microsoft OCR имеет преимущество перед Tesseract: предварительная обработка изображений намного лучше. Неважно, если у вас есть красный текст на желтом фоне или белый текст на черном. Это уловка для Tesseract, для которой требуется черно-белое изображение хорошего качества в качестве входного сигнала.
Для обеих библиотек OCR применяются: Если у вас проблемы с распознаванием, попробуйте усилить изображение. Даже размытие изображения может быть очень хорошим, потому что это устраняет шум изображения.
Этот вопрос не должен быть помечен как Silverlight. Microsoft OCR - это функция Windows 10, которая также может использоваться в приложениях «Хранилище» и в приложении «Рабочий стол». – Elmue