У меня есть файл PDF с некоторыми фонетическими символами (IPA), подобный этому: ʤ, ə и т. Д. Если я скопирую текст с этими символами, я вставляю текст без них.Почему я не могу копировать символы IPA из PDF в Linux?
Linux Mint 17.
У меня есть файл PDF с некоторыми фонетическими символами (IPA), подобный этому: ʤ, ə и т. Д. Если я скопирую текст с этими символами, я вставляю текст без них.Почему я не могу копировать символы IPA из PDF в Linux?
Linux Mint 17.
Я предлагаю использовать apache tika. После установки используйте эту команду:
java -jar tika-app-1.0.jar ‐‐text <document.pdf> document.txt
Исключение в теме "main" java.net.MalformedURLException: нет протокола: --text \t at java.net.URL.
Есть ли способ скопировать текст без преобразования pdf в txt? – Piter
В формате PDF в txt конвертер :) –
Вы можете использовать pdf extractor –
Что такое экстрактор PDF? – Piter
pdf extractor - это конвертер pdf в текст –