Мне нужно программно извлечь из многостраничного pdf, только страницы, содержащие текстовую строку. Возможно ли это, или мне нужны другие инструменты? Я работаю над aix.страницы извлечений ghostscript, содержащие текстовую строку
спасибо заранее
Мне нужно программно извлечь из многостраничного pdf, только страницы, содержащие текстовую строку. Возможно ли это, или мне нужны другие инструменты? Я работаю над aix.страницы извлечений ghostscript, содержащие текстовую строку
спасибо заранее
OK во-первых, Ghostscript не извлекать страницы из PDF-файлов. Он создает совершенно новые PDF-файлы, внешний вид которых должен быть таким же, как оригинал, но контент которого будет отличаться.
Невозможно сделать это с помощью Ghostscript за один проход. Вы можете использовать устройство txtwrite для извлечения текста, затем grep через выходные файлы для текста, который вы хотите, обратите внимание на номера страниц, а затем запустите другой проход, чтобы получить эти страницы в новые файлы.
Имейте в виду, что извлечение текста из файла PDF далеко не гарантировано! Это не было целью оригинального формата PDF.
Также обратите внимание, что в настоящее время GHostscript разрешает обработку только одного диапазона страниц, First-> Last, поэтому, если у вас есть прерывистый набор (например, страницы 1, 3, 5, 7 и т. Д.), Вам придется запускать этот шаг несколько раз.