2008-10-21 5 views
4

Я пытаюсь развернуть синтаксический анализ XHTML DOM с помощью JTidy, и это кажется довольно противоречивой задачей. В частности, существует метод для разбора HTML:JTidy Node.findBody() - Как использовать?

Node Tidy.parse(Reader, Writer) 

И получить < тело/> этого узла, я полагаю, я должен использовать

Node Node.findBody(TagTable) 

Где я должен получить экземпляр, что TagTable? (Конструктор защищен, и я не нашел фабрику для его изготовления.)

Я использую JTidy 8.0-SNAPSHOT.

ответ

6

я нашел там много простого метода, чтобы извлечь тело:

 
tidy = new Tidy(); 
tidy.setXHTML(true); 
tidy.setPrintBodyOnly(true); 

И затем использовать порядок в паре Reader-Writer.

Простой, как и должно быть.

3

Вы можете использовать метод parseDOM вместо этого, который даст вам org.w3c.dom.Document спины:

Document document = Tidy.parseDOM(reader, writer); 
Node body = document.getElementsByTagName("body").item(0);