Я хочу, чтобы tesseract ORC работал над файлом изображения, чтобы проверить содержимое.
Проблема заключается в том, что tesseract требует не только TIFF, но также требует, чтобы файл tiff находился в определенном формате.
Как создать файл TIFF, который можно прочитать с помощью Tesseract OCR?
С помощью всего лишь обычный файл в формате TIFF, я получаю:
[email protected]:~/Desktop# tesseract crap.tif crap.txt
Tesseract Open Source OCR Engine
check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32
Segmentation fault
До сих пор мне удалось найти противоядие.
Он заключается в использовании GIMP, Изображение> Режим> Указатели и настройка «Сформировать Оптимальная палитра», «максимальное количество цветов» до 256.
то я должен сделать еще один трюк, прежде чем «Сохранить В виде".
Переход к уровню> Прозрачность> Удалите альфа-канал, , который удалит прозрачность, потому что изображения TIF не могут иметь прозрачность.
Теперь проблема заключается в моем входном изображении приходит от C#, и предобработана с фильтрами AForge.NET анализа изображений.
Я также нашел .NET порт LibTIFF и пример того, как написать изображение с цветовой палитрой здесь:
http://bitmiracle.com/libtiff/help/create-tiff-with-palette-(color-map).aspx
Но я не знаю, как получить данные из источника tiff (тот, у которого неправильная палитра), к целевому тифу (с правильным форматом палитры) ...
Это хорошая альтернатива существующему решению. +1 –