С сегодняшнего дня я это знаю: Лучшая вещь для извлечения текста из PDF-файлов is TET, the text extraction toolkit. TET является частью семейства продуктов PDFlib.com.
PDFlib.com является компанией Thomas Merz. Если вы не узнаете его имя: Томас Мерц является автором «Библии PostScript и PDF».
Первое воплощение TET - a library. Вероятно, это может сделать все, что хотел Budda006, включая позиционную информацию обо всех элементах на странице. О, и он также может извлекать изображения. Он рекомбинирует изображения, фрагментированные на куски.
pdflib.com также предлагает другое воплощение этой технологии, TET plugin for Acrobat. И третье воплощение - PDFlib TET iFilter. Это автономный инструмент для пользовательских настольных компьютеров. Оба они бесплатны (как в пиве) для использования в частных некоммерческих целях.
И это действительно мощный. Лучше, чем собственное извлечение текста Adobe. Он извлек текст для меня, где другие инструменты (включая Adobe) выплевывают только мусор.
Я только что протестировал автономный инструмент для настольных компьютеров, и то, что они говорят на своей веб-странице, верно. У него очень хорошая командная строка. Некоторые из моих «проблемных» файлов PDF-файлов обрабатывают инструмент в полном объеме.
Эта вещь будет отныне моей рекомендацией для каждого сложного и сложного требования к извлечению текста в формате PDF.
TET просто потрясающе.Он обнаруживает таблицы. Внутри таблиц он идентифицирует ячейки, охватывающие несколько столбцов. Он определяет таблицы и содержимое каждой ячейки таблицы отдельно. Он отлично справляется с переносами: он удаляет дефисы и восстанавливает полные слова. Он поддерживает языки, отличные от ASCII (включая CJK, арабский и иврит). При столкновении с лигатурами восстанавливаются исходные символы ...
Попробуйте.
Связанный вопрос: [Извлечь изображения и слова с координатами и размерами из PDF] (http://stackoverflow.com/questions/8241724/extract-images-and-words-with-coordinates-and-sizes-from-pdf) – yms
Для тех, кому нужно что-то действительно простое (нет информации о местоположении), этого регулярного выражения perl может быть достаточно: '/^\s*\[?\((.*?)\)\]?\s*T[Jj]/mg '. Он просто ищет оператор Tj/TJ, который обозначает весь обычный текст в PDF. –
использование [TomRoush PdfBox] (https://github.com/TomRoush/PdfBox-Android) библиотека это работает хорошо на android – FaisalAhmed