Я извлекаю текст, используя python из текстового файла, созданного из pdf, используя pdftotext. Это один из 2000 файлов, и в этом конкретном случае линия ключевых слов заканчивается в ЕС. Остальная часть линии пустая для невооруженного глаза, и следующая строка.PDFtotext - пробелы, показывающие как aacute на командной строке
Программа обычно удаляет любые завершающие пробелы в конце строки и игнорирует последующую пустую строку.
В этом случае он сохраняет пробелы, которые видны при печати в текстовом файле между «ЕС» и аналогичным образом в html (Simile Exhibit).
Я также напечатал в командной строке, и здесь я вижу строку aacute. [?]
Я думал, что явный способ справиться с этим - искать и заменять accute. Я попытался сделать это с помощью компиляции, и я играл с перестановками для декодирования входящего текста.
Как ни странно, когда я печатаю «\ 255», я не понимаю, у меня есть могила.
Кажется вероятным с этой странной комбинацией ошибок, что я неправильно понял что-то фундаментальное. Какие-нибудь подсказки о том, как начать распутывать это?
Большое спасибо.
Спасибо, кучи. Вы разобрали мою проблему. Я скомпилировал поисковый запрос для «\ xA0», а затем я могу удалить оскорбительный NBSP. И, похоже, мы не можем использовать новую строку здесь без отправки. Это неудобно! Я также узнал, как отображать нарушающий код, и узнал, что кодировка изменяется, когда я перенаправляю вывод из окна Commmand Prompt в текстовый файл и v.v. Огромное спасибо. – jobucks
@ jobucks: Где факты? «Скомпилированный поисковый запрос» означает что? re.compile() ?? «не может использовать новую строку здесь без отправки»? Пожалуйста, объясни. Кроме того, что это было за «\ 255» и o-grave? –