Конфигурация и оптимизация ImageMagic и Tesseract

Мы используем ImageMagic и tesseract для чтения информации в документах, но мы не находим правильную конфигурацию и комбинацию обоих программ для оптимизации исходного отсканированного документа tif и применяем к нему tesseract получить информацию.Конфигурация и оптимизация ImageMagic и Tesseract

Сначала мы используем для сканирования документа в сканере с конфигурацией 300 точек на дюйм, а в документе tif используется использование с размером 170 КБ.

Затем мы пытаемся запустить предварительный процесс изображения с помощью imagemagic, прежде чем передавать его в tesseract 3.0.3, чтобы создать PDF-документ с текстовым документом.

Первая команда, которую мы используем это один:

convert page.tiff -respect-parenthesis -compress LZW -density 300 
-bordercolor black -border 1 -fuzz 1% -trim +repage -fill white -draw 
"color 0,0 floodfill" -alpha off -shave 1x1 -bordercolor black -border 2 
-fill white -draw "color 0,0 floodfill" -alpha off -shave 0x1 -fuzz 1% 
-deskew 40 +repage temp.tiff

А затем применить его к Тессеракта так:

tesseract -l spa temp.tiff temp pdf

Это производит довольно тяжелый PDF https://drive.google.com/open?id=0B3CPIZ_TyzFXd2UtWldfajR4SVU но тессеракт не умеет считывать данные, находящиеся в ячейках, или в таблице под заголовком таблицы, если фон заголовка темнее.

Затем мы попытались использовать эту команду с обращенным:

convert page.tiff -compress LZW -fuzz 1% -trim -alpha off -shave 1x1 temp.tiff

И это производит очень легкий PDF-документ https://drive.google.com/open?id=0B3CPIZ_TyzFXWFEwT3JucDBTVVU, но мы по-прежнему имеют те же проблемы.

Может ли кто-то указать нам, как мы будем следовать, чтобы оптимизировать изображение, чтобы попытаться получить информацию, подобную приведенной в примере? или рекомендации по оптимизации изображений для повышения точности tesseract?

Тип документов мы пытаемся процесс очень разные с различными видами типов шрифтов и размеров

источник

2016-12-12 Miguel Angel Garcia Vidal