2009-06-04 2 views
0

Мы получаем почту из нашей учетной записи gmail, используя IMAP4_SSL и python. Тело письма извлекается в формате html. Нам нужно преобразовать это в открытый текст. Может ли кто-нибудь помочь нам с этим?IMAP4_SSL с gmail в python

ответ

2

Стенд на плечах гигантов ...
Peter Bengtsson разработал решение этой проблемы here.
Сценарий Питера использует потрясающий BeautifulSoup, Леонард Ричардсон,
и Fredrik Lundh's unescape() function.

Использование тестового примера Питера, вы получите это:

This is a paragraph. 

Foobar [1] 
http://two.com 

Visit http://www.google.com. 

Text elsewhere. Elsewhere [2] 

[1] http://one.com 
[2] http://three.com 

... от этого:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> 
<html> 
<body> 

<div id="main"> 
<p>This is a paragraph.</p> 

<p><a href="http://one.com">Foobar</a> 
<br /> 

<a href="http://two.com">two.com</a> 

</p> 
    <p>Visit <a href="http://www.google.com">www.google.com</a>.</p> 
<br /> 
Text elsewhere. 

<a href="http://three.com">Elsewhere</a> 

</div> 
</body> 
</html> 

 Смежные вопросы

  • Нет связанных вопросов^_^