Мы используем php, pypdfocr и pdftotext для OCR и извлекаем текст из документов, которые были отсканированы или отправлены по факсу нам. Вопрос в том, когда документ сканируется или по факсу с ног на голову, или если некоторые страницы предназначены для чтения ландшафта (так что текст поворачивается на 90 градусов на странице)обнаруживает pdf-страницы, которые перевернуты
вещи я пытался:
- в tessdata ф eng.traineddata osd.traineddata
в результате OCR слой текста для страниц, которые имеют 90 градусов текст не плохо, однако страницы, которые с ног на голову, это OCR-х каждое слово и переворачивает его на месте, так что если «Это тест» появляется в документе, но с ног на голову текстовый слой может читать «test a is This»
Если есть способ обнаружить, что страница перевернута, я могу использовать pdftk для поворота страниц, прежде чем запускать ее через OCR (или я смогу удалить текстовый слой, если он был OCR'd, и запустить его, хотя OCR снова после использования pdftk для поворота)
Любое решение, которое может быть выполнено из CLI linux в этом месте, является жизнеспособным решением.
Спасибо, с этим я могу написать сценарий для автоматического процесса дия (вращение затруднительного и OCR) После того, как я его закончил, я отправлю его обратно сюда в случае полезно кому-либо в будущее. – Logikos