Я использую TCPDF для создания файлов PDF.Выход Ghostscript PDF: текст не может быть скопирован
Поскольку TCPDF есть ошибка в Подменит шрифт (link to bug),
я использую следующую команду Ghostscript для подмножества шрифтов в TCPDF созданного PDF файл:
gswin64c.exe -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 \
-dPDFSETTINGS=/prepress -dUseFlateCompression=false -dEmbedAllFonts=true \
-dSubsetFonts=true -sOutputFile="out.pdf" "input.pdf"
Он прекрасно работает и уменьшает файл размер. Но когда я пытаюсь проанализировать PDF-файл как текст (с помощью poppler ->pdftotext
) или когда я открываю файл в программе просмотра PDF и выбираю текст, я получаю тарабарщину на шрифтах UTF-8.
Для того, чтобы воспроизвести его здесь, это file before ghostscript и file after ghostscript.
Если вы открываете его в Adobe Reader, скопируйте текст и вставьте его в другое место, вы увидите, что вы можете скопировать текст из файла «до GS». Но во втором файле вы получаете тарабарщину, если не копируете английские символы (файлы находятся на иврите).
Помимо этого файл выглядит великолепно.
У вас есть идея о том, как сохранить шрифты UTF8 в Ghostscript?
Вы хорошо описываете свою проблему, тогда вы хотите, чтобы мы * «воспроизвели ее» *, но не предоставили нам вашу версию Ghostscript ?! Итак: какую версию вы используете? (output 'gs -version') –
Я добавил его к вопросу, версия 9.16 – Wazime