Мне нужно проанализировать PDF-документ. У меня есть Java-программа для анализа файла PDF. (При анализе PDF я использовал информацию о шрифтах этих абзацев в PDF.I не конвертировать ее в текст, потому что если я конвертировать PDF в текстовый файл я буду сойду шрифт information.so непосредственно я разбор PDF с информацией шрифта с помощью Apache PDFBox. я загрузить PDF-файл, используя следующий кодпроанализировать файл в формате pdf с помощью программы mapreduce в hadoop
String inputFile = "/home/Desktop/CTT/bcreg20130702a.pdf";
File input = new File(inputFile);
pd = PDDocument.load(input);
Теперь мне нужно для написания программы сокращения карт для разбора PDF-документов. Я не могу напрямую использовать файл PDF в качестве входа в функцию map() в программе mapreduce. Я использовал WholeFileInputFormat для передачи всего документа в виде одного split.but, но он дает мне BytesWritable (значение) и имя файла (ключ).
У меня также есть SequenceFileFormat этого PDF.
Как я могу использовать PDFBox с этим SequenceFileFormat или WholeFileInputFormat? и он также должен сохранять информацию о шрифтах. Без информации о шрифтах я не могу разобрать мой pdf.