2009-10-22 4 views
0

Пожалуйста, какие-либо идеи о том, как извлечь изображение из pdf в php?Как извлечь изображение из файла pdf с помощью php

+0

Я пытаюсь сделать то же самое. PDF-изображения хранятся как есть, все байты в такте. Я составил список начальных и конечных байтов, но я пропустил некоторые из них: http://dadruid5.wordpress.com/2014/08/21/ending-and-starting-bytes-for-images/. Любая помощь в заполнении списка будет оценена по достоинству. Если вы видите форматы файлов, которые вам нужны (кто-то направляется сюда), просто найдите магическое число и конец байтов или поток (с обрезкой). –

+0

еще одна вещь. В Linux (CentOS, Fedora, Ubuntu), используя poppler utils call (подпроцесс или командная строка) pdfimages [-options]

ответ

2

Посмотрите на pdfimages. Вот описание со страницы:

Pdfimages сохраняет изображения с портативного Формат файла документа (PDF), как Портативный Pixmap (PPM), Portable Bitmap (PBM), или файлы JPEG.

Pdfimages читает файл PDF, сканирование один или несколько страниц, PDF-файл, и пишет один PPM, PBM, или файл JPEG для каждого изображения, image-root-nnn.xxx, где NNN является номер изображения и xxx - это тип изображения (.ppm, .pbm, .jpg).

NB: pdfimages извлекает необработанного изображения данные из файла PDF, без выполнения каких-либо дополнительных преобразований. Любое вращение, обрезание, инверсия цвета и т. Д., Выполненные в потоке содержимого PDF , игнорируются.

0

Если у вас есть существующий PDF-файл я предполагаю, что это довольно невозможно извлечь изображение оттуда с помощью PHP, может быть, вам повезет больше с C: вам нужно разобрать двоичный файл, расшифровывает/распаковывает/декомпилировать его и найти, где изображение хранится, а затем скопировать его.

Это проще, если вы просто скопируете его.

+0

Или, может быть, java. 'http: // www.jpedal.org /' –

+0

yep, sure, java или даже python, но я не знаю, есть ли для этого библиотеки. – OverLex

2

Я считаю, вы также можете использовать imagemagic. Вы можете отправить аргументы командной строки и щелкнуть снимок с учетом координат, которые вы можете предоставить. Вам необходимо будет установить некоторые rpms и т. Д.

1

Отъезд PDFLib. Их продукт TET делает именно это. Вы можете получить изображения и текст ... Единственное, что он не охватывает, это векторные изображения.

1

У меня также есть та же проблема, то я нашел этот extractImagesFromPdfClient

и работает для меня enter image description here

Загрузить код здесь ..