Возможно ли это!?!Чтение данных из файлов PDF в R
У меня есть группа устаревших отчетов, которые мне нужно импортировать в базу данных. Тем не менее, они все в формате pdf. Есть ли какие-либо пакеты R
, которые могут читать pdf? Или я должен оставить это для инструмента командной строки?
Отчеты были сделаны в формате excel, а затем в формате pdf, поэтому они имеют регулярную структуру, но много пустых «ячеек».
Принимая взгляд на CRAN, там похоже, не является какой-либо библиотекой, которая это делает. Возможно, вам лучше использовать другой язык, на котором есть такие библиотеки (например, Perl и Python), захватывая нужные вам данные, а затем записывая их в файл, который может быть прочитан R. –
@JackManey Спасибо , это то, о чем я думал. Существует 'readPDF' в пакете' tm' (text mining), но он не совсем удобен для пользователя, и я думаю, что он использует утилиту командной строки 'pdftotext' под капотом в любом случае. – Justin
У вас есть мои симпатии. Может быть, когда-нибудь мы будем жить в мире, где все данные доступны как данные! –