Я использую Python и imaplib для получения электронной почты с сервера IMAP (поддерживает все виды серверов IMAP - GMail и т. Д.).Дополнительные вкладки в IMAP HTML-текст
Моя проблема: Используя команду IMAP BODY [INDEX] для получения определенной части тела, HTML поставляется с дополнительными вкладками. Как и в:
(...)</a>\t\t\t\t\t\t\t\t<a>(...)
Когда показывая HTML вкладки, очевидно, дополнительно:.
(скриншот в португальском языке, но я считаю, что это не имеет отношения
I Я нашел, что эти \ t всегда следуют за тегами закрытия (например, \ t \ t \ t \ t \ t), поэтому я мог бы просто найти все вкладки, которые появляются после закрытия тега и удалите их, но я не знаю, будет ли это надежный метод.
Спасибо
Пожалуйста, покажите нам код обработки рассматриваемого текста. –
Вкладки не важны для анализатора html. Вероятно, они находятся в исходном документе. Html разрушает все смежные пробелы, включая вкладки в одно пространство. – Max