2012-02-10 1 views
0

Я извлек источник html с веб-страницы и задавался вопросом, как извлекать тексты, такие как адреса электронной почты из этого источника. Im мышления использования jsoup как
Извлечь адрес электронной почты из источника html

public static String html2text(String html) { 
    return Jsoup.parse(html).text(); 
} 

, но это дало бы мне много нежелательных текста, а также.

+0

Вы используете java, я думаю, но вы не отметили его в вопросе. Можете ли вы также использовать javascript/jquery? Это довольно прямолинейно, используя регулярное выражение, но я не уверен в Java. – elclanrs

+0

Я использую java. забыл упомянуть об этом. – SoH

ответ

0

Вы можете удалить все теги (если электронные письма не находятся внутри тегов). Затем либо применяйте регулярное выражение, либо проверяйте каждое слово, если оно соответствует шаблону электронной почты. Обычно я отмечаю его как электронную почту, если он содержит @ внутри слова и . находится после слов. В соответствии со стандартным форматом электронной почты многие электронные письма не совпадают (например, "hello [email protected]"). Да, электронная почта поддерживает символы пробела до @!

0

Как сказал Шиплу, я считаю, что лучшим решением является использование регулярных выражений sto, взгляните на классы Pattern и Matcher, если вы используете Java.