Мы используем ImageMagic и tesseract для чтения информации в документах, но мы не находим правильную конфигурацию и комбинацию обоих программ для оптимизации исходного отсканированного документа tif и применяем к нему tesseract получить информацию.Конфигурация и оптимизация ImageMagic и Tesseract
Сначала мы используем для сканирования документа в сканере с конфигурацией 300 точек на дюйм, а в документе tif используется использование с размером 170 КБ.
Затем мы пытаемся запустить предварительный процесс изображения с помощью imagemagic, прежде чем передавать его в tesseract 3.0.3, чтобы создать PDF-документ с текстовым документом.
Первая команда, которую мы используем это один:
convert page.tiff -respect-parenthesis -compress LZW -density 300
-bordercolor black -border 1 -fuzz 1% -trim +repage -fill white -draw
"color 0,0 floodfill" -alpha off -shave 1x1 -bordercolor black -border 2
-fill white -draw "color 0,0 floodfill" -alpha off -shave 0x1 -fuzz 1%
-deskew 40 +repage temp.tiff
А затем применить его к Тессеракта так:
tesseract -l spa temp.tiff temp pdf
Это производит довольно тяжелый PDF https://drive.google.com/open?id=0B3CPIZ_TyzFXd2UtWldfajR4SVU но тессеракт не умеет считывать данные, находящиеся в ячейках, или в таблице под заголовком таблицы, если фон заголовка темнее.
Затем мы попытались использовать эту команду с обращенным:
convert page.tiff -compress LZW -fuzz 1% -trim -alpha off -shave 1x1 temp.tiff
И это производит очень легкий PDF-документ https://drive.google.com/open?id=0B3CPIZ_TyzFXWFEwT3JucDBTVVU, но мы по-прежнему имеют те же проблемы.
Может ли кто-то указать нам, как мы будем следовать, чтобы оптимизировать изображение, чтобы попытаться получить информацию, подобную приведенной в примере? или рекомендации по оптимизации изображений для повышения точности tesseract?
Тип документов мы пытаемся процесс очень разные с различными видами типов шрифтов и размеров