2013-05-06 1 views
0

Я использую Python и imaplib для получения электронной почты с сервера IMAP (поддерживает все виды серверов IMAP - GMail и т. Д.).Дополнительные вкладки в IMAP HTML-текст

Моя проблема: Используя команду IMAP BODY [INDEX] для получения определенной части тела, HTML поставляется с дополнительными вкладками. Как и в:

(...)</a>\t\t\t\t\t\t\t\t<a>(...) 

Когда показывая HTML вкладки, очевидно, дополнительно:.

enter image description here

(скриншот в португальском языке, но я считаю, что это не имеет отношения

I Я нашел, что эти \ t всегда следуют за тегами закрытия (например, \ t \ t \ t \ t \ t), поэтому я мог бы просто найти все вкладки, которые появляются после закрытия тега и удалите их, но я не знаю, будет ли это надежный метод.

Спасибо

+1

Пожалуйста, покажите нам код обработки рассматриваемого текста. –

+0

Вкладки не важны для анализатора html. Вероятно, они находятся в исходном документе. Html разрушает все смежные пробелы, включая вкладки в одно пространство. – Max

ответ

0

Я нашел решение (на данный момент по крайней мере).

При получении данных из ответа на вызов IMAP существуют символы \\ r \\ n, ограничивающие линии. Я удаляю их.

Однако я обнаружил, что помимо них есть и \\ t символы, связанные с ними в некоторых случаях. Например:

\\ г \\ п \\ т \\ т \\ т \ т

Если я удалить \\ т вместе с \\ г \\ п, HTML представлен совершенно ,