Пожалуйста, какие-либо идеи о том, как извлечь изображение из pdf в php?Как извлечь изображение из файла pdf с помощью php
ответ
Посмотрите на pdfimages. Вот описание со страницы:
Pdfimages сохраняет изображения с портативного Формат файла документа (PDF), как Портативный Pixmap (PPM), Portable Bitmap (PBM), или файлы JPEG.
Pdfimages читает файл PDF, сканирование один или несколько страниц, PDF-файл, и пишет один PPM, PBM, или файл JPEG для каждого изображения, image-root-nnn.xxx, где NNN является номер изображения и xxx - это тип изображения (.ppm, .pbm, .jpg).
NB: pdfimages извлекает необработанного изображения данные из файла PDF, без выполнения каких-либо дополнительных преобразований. Любое вращение, обрезание, инверсия цвета и т. Д., Выполненные в потоке содержимого PDF , игнорируются.
Если у вас есть существующий PDF-файл я предполагаю, что это довольно невозможно извлечь изображение оттуда с помощью PHP, может быть, вам повезет больше с C: вам нужно разобрать двоичный файл, расшифровывает/распаковывает/декомпилировать его и найти, где изображение хранится, а затем скопировать его.
Это проще, если вы просто скопируете его.
Или, может быть, java. 'http: // www.jpedal.org /' –
yep, sure, java или даже python, но я не знаю, есть ли для этого библиотеки. – OverLex
Я считаю, вы также можете использовать imagemagic. Вы можете отправить аргументы командной строки и щелкнуть снимок с учетом координат, которые вы можете предоставить. Вам необходимо будет установить некоторые rpms и т. Д.
Отъезд PDFLib. Их продукт TET делает именно это. Вы можете получить изображения и текст ... Единственное, что он не охватывает, это векторные изображения.
У меня также есть та же проблема, то я нашел этот extractImagesFromPdfClient
и работает для меня
Загрузить код здесь ..
Я пытаюсь сделать то же самое. PDF-изображения хранятся как есть, все байты в такте. Я составил список начальных и конечных байтов, но я пропустил некоторые из них: http://dadruid5.wordpress.com/2014/08/21/ending-and-starting-bytes-for-images/. Любая помощь в заполнении списка будет оценена по достоинству. Если вы видите форматы файлов, которые вам нужны (кто-то направляется сюда), просто найдите магическое число и конец байтов или поток (с обрезкой). –
еще одна вещь. В Linux (CentOS, Fedora, Ubuntu), используя poppler utils call (подпроцесс или командная строка) pdfimages [-options] –