2016-12-29 2 views
-1

Я использую tesseract.exe в Windows 7 по командной строке и при сканировании изображения для OCR, я получаю вывод в непрерывных линиях. Я хочу, чтобы это в слове обернулось точно так, как оно есть в изображении. Есть ли аргумент командной строки для таких вариантов? Любая помощь будет оценена.Tesseract OCR line breaks в командной строке

ответ

1

Это потому, что Tesseract помещает только линейные каналы в конце строки, а не возвращает каретки + линейные каналы, как ожидалось в «Блокноте Windows». Легко устранить проблему, для вывода результатов на стандартный вывод и перенаправить этот вывод в файл:

tesseract.exe eurotext.tif - > result.txt 

вместо

tesseract.exe eurotext.tif result 
+0

попробовал. создает 2 файла. -.txt с теми же данными в нем, то есть все в одной строке и result.txt, который является пустым файлом –

+0

- работает для меня с версией 3.05. Вы также можете попробовать stdout вместо -. Кроме того, вы можете конвертировать LF в CR + LF в Windows с помощью 'TYPE result.txt | НАЙТИ ""/V> result1.txt'. – Stef