Я пытаюсь извлечь текст из pdf-книги и продолжить выполнение проблемы, когда разделы скопированного текста не сохраняют правильные свойства капитализации при вставке в текстовый документ. У меня есть права на воспроизведение книги, а также лицензию на использование всех необходимых шрифтов. Сначала я думал, что проблема связана с тем, что шрифты не встроены, но я проверил, и все шрифты, похоже, встроены в подмножество. В PDF есть более 100 шрифты, используемые, которые имеют одно из следующих свойств:Проблема с извлечением текста в формате PDF - несоответствия шрифта/капитализации
TrueType Кодирование: Анси TrueType (ИДС) Кодирование: Идентичность-Н Тип 1 (ИДС) Кодирование: Идентичность-Н Тип 1 Кодировка : Пользовательский
Языки в пределах книги включают английский, немецкий, испанский и итальянский языки. В Германии капитализация абсолютно важна. Он имеет тенденцию потерять свойства верхнего регистра больше, чем нижние.
Пример ошибки будет: WELD -> приварку
Я действительно в недоумении на то, чтобы сделать здесь. Я попросил владельца книги вставить шрифты, которые он сделал как подмножества, но проблема продолжается. Я попытался сохранить файл pdf в качестве постскриптума, а затем запустить его через дистиллятор, который правильно справился с проблемой, но в некоторых случаях приводил к замене текста на разные символы или цифры, отображаемые как черепа. Я понимаю, что CID-шрифты могут внести свой вклад в эту проблему, но я столкнулся с экземпляром, где шрифт не CID имел тот же результат.
Что может быть причиной этой проблемы? Является ли это, что шрифты являются подмножествами по сравнению с полностью встроенными? Есть ли лучший способ сохранить собственный файл (InDesign) в формате pdf, что позволит лучше извлечь шрифт? Имеет ли это отношение к шрифтам, отличным от unicode, и если есть ли альтернатива, которая не требует от владельца выбора разных шрифтов?
Любая помощь очень ценится.
К сожалению, вы не говорите, какой инструмент вы используете для извлечения текста, и вы не предоставите образец PDF, чтобы проиллюстрировать проблему. Обычно ошибки в извлечении текста могут быть вызваны неполной или неправильной информацией в шрифтах. Но есть также шрифт caps/smallcaps, который может быть реализован только зашифрованием заглавных букв, а затем отображением их разных размеров. У каждого встроенного письма есть только одно значение ToUnicode, хотя ... – mkl