2012-03-20 2 views
1

Использование Иерихон, мне нужно, чтобы разобрать что-то вроде этого:Как разобрать текст без вложенных элементов html с помощью Jericho?

<html> 
<div class="title"> 
    Spoon bows 
    <br/> 
    <span> 
     A Matrix scene. 
     <br/> 
     Matrix 1 
    </span> 
</div> 
</html> 

Я хочу, чтобы разобрать «Ложка луки», но я получаю все содержимое внутри <div> тега, используя следующий код:

List<Element> list = item.getAllElementsByClass("title"); 
if(list!=null) { 
    Element title = list.get(0); 
    if(title!=null) { 
     String text = title.getContent().getTextExtractor().toString(); 
     } 
    } 
} 
+0

Извините за бесформатного фрагмент кода, я как-то не может получить это право, хотя я использую 4 пробелов и таких ... – AndaluZ

+0

Текстовый редактор имеет форматировщик «code». Он автоматически отменит ваш код на 4 пробела. – Soviut

ответ

6

Это должно помочь вам:

private String getTextContent(Element elem) { 
    String text = elem.getContent().toString(); 

    final List<Element> children = elem.getChildElements(); 
    for (Element child : children) { 
     text = text.replace(child.toString(), ""); 
    } 
    return text; 
} 
+0

Спасибо брату :-) – AndaluZ

+0

Это может сломаться для некоторых случаев, например. A Текст A Текст Mene