Каковы наилучшие настройки сканера для сканирования документов (белый & черный текст) и использовать их для преобразования OCR (для достижения наилучших результатов) и стандартных настроек и спецификация формата PDF и TIFF?Наилучшая настройка для сканеров для документов сканирования (TIFF и PDF)
ответ
Для цели OCR я сканирую документ в формате 300DPI, Ч/Б или оттенки серого и несжатый формат TIFF или PNG.
Для распознавания текста, лучшие настройки сканирования являются:
- 300 точек на дюйм для обычного текста, 400 точек на дюйм для особо мелких шрифтов (мелкий шрифт)
- Черный & белый для текста, оттенки серого для мелких шрифтов , цвет для фотографий
- Формат TIFF. Группа4 используется для черного & белый (очень маленький размер файла). Если требуется цвет, используйте Uncompressed (очень большой размер файла).
Некоторые технологии распознавания могут иметь особые предпочтения, которые могут слегка помочь, но они обычно незначительны.
Хотя 300DPI оптимально подходит для «идеальных» входов, если вы работаете с несовершенными входами (например, с пишущей машинки или матричным принтером), тогда высокое разрешение фактически выкинет tesseract. В подобных случаях лучше использовать меньшее разрешение, чтобы скрыть недостатки. Например. с матричным принтером я получаю значительно лучшие результаты при 150dpi, чем 300dpi.
Если вы хотите получить общий ответ, 300 DPI это хорошо. Лучшие результаты OCR обычно для черно-белых изображений, и если качество изображения низкое, вы можете улучшить его, применяя обработку изображений.
Кроме того, если вы сохраняете отсканированное изображение, а затем подаете его на двигатель OCR, НЕ используйте сжатие с потерями, например JPEG. Обратите внимание, что есть сжатие JPEG без потерь, но оно обычно не поддерживается.
спасибо за ваше предложение, мне нужен еще один ввод для сжатия, такой как группа 4, эта настройка доступна во всем сканере и какой хороший формат сжатия для PDF-файлов? даже если вы можете указать мне на некоторые ссылки, которые были бы замечательными –
Group4 чрезвычайно популярен и должен быть доступен в большинстве сканеров, где поддерживается формат TIFF. Некоторые специализированные сканеры, такие как ScanSnap, могут быть одноформатными, например PDF. –
Для PDF обычно есть 2 фактора: разрешение и сжатие JPEG. Лучше всего иметь несжатый PDF для OCR, если вы собираетесь в формате PDF. –