2017-01-25 3 views
1

Мне нужно извлечь заголовок PDF-документов из (прямого) URL-адреса, поэтому я получу URL-адреса, например: http://somepagehere/something/something.pdf, и мне нужно извлечь только название этого pdf-документа без необходимость загрузить весь документ.Извлечь заголовок из PDF-документа на PHP по адресу

Я вижу, что Zend Framework имеет нечто похожее на эту особенность с:

$pdf = Zend_Pdf::load($pdfFilePath); 
$title=$pdf->properties['Title']; 

Однако, как я это делаю в обычном PHP, и как мне делать это только с URL (не нуждающейся для загрузки весь документ)? Благодарю.

ответ

0

Предполагая, что вы должны извлечь титул в самой (а не имя файла PDF) документа, вам понадобится плагин для обработки, что, к сожалению, - - это невозможно сделать на регулярной PHP (легко). Тем не менее, есть много плагинов на выбор, и ваше использование может сделать один более применим, чем другой:

  • ApacheFOP
  • DOMPDF
  • FPDF
  • html2ps
  • MPDF
  • PDFlib
  • TCPDF
  • wkhtmltopdf
  • Zend_Pdf

Что касается фактического извлечения извлечения, вы можете использовать этот подход; после загрузки всего PDF (что, к сожалению, вам нужно сделать) вам нужно что-то вроде:

$title=$pdf->properties['Title']; 

Надеюсь, это поможет!

0

Вы ищете basename()?

echo basename($pdfFilePath); 

Вернется:

something.pdf 
+0

Нет, не совсем, basename будет извлекать имя только из URL-адреса, что является последним решением, но я хотел бы извлечь свойство title фактического pdf, возьмите этот пример: http: // alex .smola.org/drafts/thebook.pdf, здесь basename вернет только «книгу», но заголовок документа - «AnIntroductiontoMachineLearning - thebook» ... –

+0

В этом случае ответ не требуется - вам нужно скачать документа и использовать библиотеку для извлечения названия. – markt