Я недавно создал сервер Linux, чтобы иметь возможность конвертировать текстовые PDF-файлы в текст с помощью команды pdftotext
, входящей в состав Xpdf, а также для преобразования PDF-файлов на основе изображений в текст с использованием комбинации gs
(Ghostscript) и tesseract
.Как различать «текстовые» PDF-файлы и «образные» PDF-файлы в PHP?
Оба решения работают очень хорошо, когда я уже знаю, является ли PDF текстовым или основанным на изображениях. Однако, чтобы автоматизировать процесс преобразования многих PDF-файлов в текст, мне нужно выяснить, является ли PDF текстовым или основанным на изображениях, чтобы я знал, какой набор процессов запускается в PDF-файле.
Есть ли какой-либо способ в PHP для анализа PDF-файла и рассказать, основан ли он на текстовой или графической основе, чтобы я знал, использовать ли на нем Xpdf или Ghostscript/Tesseract?
Что делать, если есть комбинация обоих? – cmorrissey
Происходит ли это, и если да, то достаточно ли запустить файл «pdftotext» Xpdf в файле? В любом случае, есть ли два или три разных типа PDF-файлов, мне нужно иметь возможность различать их, чтобы я знал, как их обрабатывать, чтобы получить текст. Благодарю. – HartleySan
Я бы запускал оба сценария против PDF, тогда вам нужно сделать сравнение на выходе. – cmorrissey