2016-11-19 10 views
0

Я извлекаю текст из файлов PDF. это код:извлечь текст из pdf в php не работает для всех файлов PDF

<?php 

require("PdfToText.php"); 

$file = 'SamplePF' ; 
$pdf = new PdfToText ("$file.pdf") ; 
echo ($pdf -> Text) ; 

?> 

Этот класс отлично подходит для некоторых PDF-файлов. Проблемы этого класса:

  1. для некоторых PDF-файлов это взять текст из случайной страницы/строк не в последовательности страницы мудро.
  2. для некоторых файлов PDF он не показывает никакого результата.
  3. для некоторых файлов PDF он извлекает только одну или две строки.

Пожалуйста, предложите какое-либо решение. Спасибо!

+0

Некоторые PDF-файлы старше и не используют ту же структуру больше. Если у вас есть проблемы с этим, свяжитесь с Adobe, почему они не опубликовали публичный API для этого. – Xorifelse

ответ

0

Я не уверен, что это может быть точная проблема, из-за которой вы не можете извлечь ее, но я также столкнулся с чем-то подобным при извлечении данных из pdf. Иногда файлы PDF блокируются паролями владельца, которые накладывают определенные ограничения на документ и не позволяют изменять, копировать или извлекать содержимое и т. Д., Чтобы защитить свои авторские права. Check this link for more info on owner passwords.

Итак, вы можете сначала попытаться удалить пароль владельца, а затем попытаться извлечь такие pdf-файлы. Чтобы удалить пароли владельца, имеется ряд инструментов, доступных в Интернете, вы можете выбрать, какой из них вам подходит.