Как вы начнете поиск «пустых» страниц в pdf-файле? На следующем шаге я хочу преобразовать эти страницы в .tiff, используя ghostscript. Если можно сделать все с помощью одной команды на unix-машине, это было бы прекрасно.Поиск страниц без текста в PDF
ответ
Ну, это во многом зависит от того, что вы подразумеваете под «текстом» (из вашей темы) или «пустыми» страницами (из вашего основного текста). Его вполне возможно иметь векторные пути, которые воспроизводят форму текста или изображения, воспроизводящие формы персонажей.
Считаете ли вы, что это «текст»?
Или вы ищете страницы, которые вообще не имеют содержания (т.е. пустые)? Я не могу себе представить, почему вы хотели бы отдать их TIFF .....
Для страниц без текста (т. Е. Без использования каких-либо текстовых операторов PDF), я бы использовал устройство извлечения текста в Ghostscript. Любая страница, чей вывод пуст с этого устройства, не имеет на нем текста.
Затем вы можете запустить Ghostscript в файле PDF и использовать переключатель -sPageList для обработки только тех страниц, которые вы хотите, и выбрать одно из устройств TIFF для получения вывода TIFF.
Вы не можете сделать это за один проход (с неустановленным Ghostscript), потому что вам нужно устройство для извлечения текста, чтобы выяснить, на каких страницах есть текст, а затем устройство TIFF для записи страниц.
может написать новое устройство, которое выводит на TIFF, и если метод text_begin() устройства когда-либо называется, он просто пропускает запись страницы. Это сделало бы это за один проход, но это означало бы создание нового устройства (99% которого является копией + вставкой tiff-устройства) и перестройкой Ghostscript. Конечно, вам также понадобится AGPL ваш код.
Извините, я говорю о отсканированных документах. Так что нет векторов. Все, что OCR считает текстом, является текстом. И я хочу извлечь каждую страницу, которая не отображает текст, но может быть изображением или печатью или просто белой. Спасибо за ваш ответ, теперь я знаю, на каких устройствах я должен сосредоточиться на ghostscript (что немного сложно понять). На данный момент я вручную нашел страницы и извлек их с помощью imagemagick, что было не слишком много. –