2016-09-27 12 views
0

У меня есть файл PDF с некоторыми фонетическими символами (IPA), подобный этому: ʤ, ə и т. Д. Если я скопирую текст с этими символами, я вставляю текст без них.Почему я не могу копировать символы IPA из PDF в Linux?

Linux Mint 17.

+0

Вы можете использовать pdf extractor –

+0

Что такое экстрактор PDF? – Piter

+0

pdf extractor - это конвертер pdf в текст –

ответ

0

Я предлагаю использовать apache tika. После установки используйте эту команду:

java -jar tika-app-1.0.jar ‐‐text <document.pdf> document.txt 
+0

Исключение в теме "main" java.net.MalformedURLException: нет протокола: --text \t at java.net.URL. (URL.java:593) \t at java.net.URL. (URL.java:490) \t at java.net.URL. (URL.java:439) \t на org.apache.tika.cli.TikaCLI.process (TikaCLI.java:472) \t в org.apache.tika.cli.TikaCLI.main (TikaCLI.java:145) – Piter

+0

Есть ли способ скопировать текст без преобразования pdf в txt? – Piter

+0

В формате PDF в txt конвертер :) –