2016-05-03 11 views
2

В настоящее время я использую приведенный ниже код для извлечения содержимого и метаданных файлов PDF с использованием библиотеки TIKA. Есть ли способ прочитать конкретную страницу или ограничить синтаксический анализ на первые несколько страниц в TIKA?Как читать первые несколько страниц PDF-файла с помощью TIKA

public static void main(final String[] args) throws IOException,TikaException, SAXException { 

     BodyContentHandler handler = new BodyContentHandler(); 
     Metadata metadata = new Metadata(); 
     FileInputStream inputstream = new FileInputStream(new File("test/test.pdf")); 
     ParseContext pcontext = new ParseContext(); 

     //parsing the document using PDF parser 
     AutoDetectParser pdfparser = new AutoDetectParser(); 
     pdfparser.parse(inputstream, handler, metadata,pcontext); 

     //getting the content of the document 
     System.out.println("Contents of the PDF :" + handler.toString()); 

     //getting metadata of the document 
     //System.out.println("Metadata of the PDF:"); 
     String[] metadataNames = metadata.names(); 
     System.out.println(metadata.get("xmpTPg:NPages")); 

     for(String name : metadataNames) { 
     System.out.println(name+ " : " + metadata.get(name)); 
     } 
    } 

ответ

1

ТИКА не реально обрабатывать страницы, но это отправить <div><p> до и после </p></div> страниц. Вы можете отредактировать startElement и endElement обработчика для поиска этих символов.

Если вам нужна дополнительная информация, вы можете проверить ответ topchef.
https://stackoverflow.com/a/6271696/2197529

 Смежные вопросы

  • Нет связанных вопросов^_^