2017-02-17 25 views
0

Я пытаюсь преобразовать PDF-файл с испанским текстом в .txt-файл, используя ghostscript на Mac. Все работает хорошо, за исключением отдельных символов (например, í, ó), которые отображаются неправильно (например, í отображается как «¿≠»). Кто-нибудь знает, как это исправить?Испанские символы не отображаются должным образом при преобразовании .pdf в .txt с использованием ghostscript

Настоящий рабочий пример. Поместите следующий текст в файле example.pdf:

Este Planeta Además posee эль día más Ларго дель сисьтема солнечные: 243 días terrestres, у су Movimiento эс dextrógiro, эс decir, гир ан-эль-де-лас-Sentido manecillas дель Релох contrario al movimiento de los otros planetas. Por ello, en un día venusiano el Sol sale por el oeste y se oculta por el este.

Затем запустите

gs -sDEVICE=txtwrite -o output.txt example.pdf 

ответ

0

«пример» совершенно недостаточно, так как вы не предоставили реальный файл PDF. Если я создам файл PDF самостоятельно, он не будет таким же, как ваш. В частности, он может содержать CMap ToUnicode, который у вас может не быть.

В отсутствие CMU ToUnicode любой потребитель должен угадать, что представляют собой коды символов (они вообще не могут представлять какую-либо кодировку языка), и поэтому вы не получите ожидаемого текста.

Поэтому его жизненно важно предоставить фактический пример файла, а не инструкции по его созданию.

Вы также не указали, какую версию Ghostscript вы используете.