Содержание в формате PDF сохраняется как несколько способов: «(abc) Tj», «(< 0035> < 0035>) Tj" или "\ u065".Как преобразовать код содержимого PDF в тип типа "(<0034>) Tj"?
Я хочу знать, есть ли способ конвертировать PDF-код в один тип, независимо от прямого текста "(abc) Tj" или шестнадцатеричный "(< 0035> < 0035>) Tj" или Octal " \ u065" .
Я думаю, что если конвертировать и кодировать PDF в один тип, будет легче анализировать контент.
Можно ли использовать Ghostscript или что-то в этом роде? Спасибо
Ваш второй пример «нескольких способов» неверен, он должен быть «<00350035> Tj'. Правила преобразования входного формата в точные байты, которые они представляют, обозначены в официальных спецификациях и не так уж сложно реализовать. – usr2564301