Я пытаюсь преобразовать PDF-файл с испанским текстом в .txt-файл, используя ghostscript на Mac. Все работает хорошо, за исключением отдельных символов (например, í, ó), которые отображаются неправильно (например, í отображается как «¿≠»). Кто-нибудь знает, как это исправить?Испанские символы не отображаются должным образом при преобразовании .pdf в .txt с использованием ghostscript
Настоящий рабочий пример. Поместите следующий текст в файле example.pdf:
Este Planeta Además posee эль día más Ларго дель сисьтема солнечные: 243 días terrestres, у су Movimiento эс dextrógiro, эс decir, гир ан-эль-де-лас-Sentido manecillas дель Релох contrario al movimiento de los otros planetas. Por ello, en un día venusiano el Sol sale por el oeste y se oculta por el este.
Затем запустите
gs -sDEVICE=txtwrite -o output.txt example.pdf