Я использую tesseract.exe в Windows 7 по командной строке и при сканировании изображения для OCR, я получаю вывод в непрерывных линиях. Я хочу, чтобы это в слове обернулось точно так, как оно есть в изображении. Есть ли аргумент командной строки для таких вариантов? Любая помощь будет оценена.Tesseract OCR line breaks в командной строке
-1
A
ответ
1
Это потому, что Tesseract помещает только линейные каналы в конце строки, а не возвращает каретки + линейные каналы, как ожидалось в «Блокноте Windows». Легко устранить проблему, для вывода результатов на стандартный вывод и перенаправить этот вывод в файл:
tesseract.exe eurotext.tif - > result.txt
вместо
tesseract.exe eurotext.tif result
попробовал. создает 2 файла. -.txt с теми же данными в нем, то есть все в одной строке и result.txt, который является пустым файлом –
- работает для меня с версией 3.05. Вы также можете попробовать stdout вместо -. Кроме того, вы можете конвертировать LF в CR + LF в Windows с помощью 'TYPE result.txt | НАЙТИ ""/V> result1.txt'. – Stef