2013-09-04 2 views
0

Каковы наилучшие настройки сканера для сканирования документов (белый & черный текст) и использовать их для преобразования OCR (для достижения наилучших результатов) и стандартных настроек и спецификация формата PDF и TIFF?Наилучшая настройка для сканеров для документов сканирования (TIFF и PDF)

ответ

1

Для цели OCR я сканирую документ в формате 300DPI, Ч/Б или оттенки серого и несжатый формат TIFF или PNG.

2

Для распознавания текста, лучшие настройки сканирования являются:

  • 300 точек на дюйм для обычного текста, 400 точек на дюйм для особо мелких шрифтов (мелкий шрифт)
  • Черный & белый для текста, оттенки серого для мелких шрифтов , цвет для фотографий
  • Формат TIFF. Группа4 используется для черного & белый (очень маленький размер файла). Если требуется цвет, используйте Uncompressed (очень большой размер файла).

Некоторые технологии распознавания могут иметь особые предпочтения, которые могут слегка помочь, но они обычно незначительны.

+0

спасибо за ваше предложение, мне нужен еще один ввод для сжатия, такой как группа 4, эта настройка доступна во всем сканере и какой хороший формат сжатия для PDF-файлов? даже если вы можете указать мне на некоторые ссылки, которые были бы замечательными –

+1

Group4 чрезвычайно популярен и должен быть доступен в большинстве сканеров, где поддерживается формат TIFF. Некоторые специализированные сканеры, такие как ScanSnap, могут быть одноформатными, например PDF. –

+0

Для PDF обычно есть 2 фактора: разрешение и сжатие JPEG. Лучше всего иметь несжатый PDF для OCR, если вы собираетесь в формате PDF. –

0

Хотя 300DPI оптимально подходит для «идеальных» входов, если вы работаете с несовершенными входами (например, с пишущей машинки или матричным принтером), тогда высокое разрешение фактически выкинет tesseract. В подобных случаях лучше использовать меньшее разрешение, чтобы скрыть недостатки. Например. с матричным принтером я получаю значительно лучшие результаты при 150dpi, чем 300dpi.

0

Если вы хотите получить общий ответ, 300 DPI это хорошо. Лучшие результаты OCR обычно для черно-белых изображений, и если качество изображения низкое, вы можете улучшить его, применяя обработку изображений.

Кроме того, если вы сохраняете отсканированное изображение, а затем подаете его на двигатель OCR, НЕ используйте сжатие с потерями, например JPEG. Обратите внимание, что есть сжатие JPEG без потерь, но оно обычно не поддерживается.

 Смежные вопросы

  • Нет связанных вопросов^_^