Мой клиент должен иметь CSV с именем, фамилией, DOB из своей базы данных учета.Как извлечь таблицу из плохо отформатированного PDF-файла?
Проблема заключается в том, что их учетное программное обеспечение «находится в облаке» (следовательно, на чужом компьютере и свободно доступно от любого человека в мире), и все это может сделать с помощью очень плохо отформатированной «приветственной карточки pdf», , например,
hi <newline>
<lots of spaces>my name is %name% <lots of spaces> %surname%
<lots of newlines and spaces to simulate text alignment to the right>I was born in %dob
<newpage>
Итак, все, что я могу получить, это PDF-файл на 500 страниц с этим непригодным для использования контентом.
Есть ли способ извлечь данные из такого файла?
уверен, но если формат является то, что глупо, вы в течение многих строка проб и ошибок и операции с регулярным выражением ... удачи. –
Если форматирование на каждой странице одинаково, то вырезать регулярное выражение для извлечения данных не должно быть большой проблемой. – Robert