2010-07-07 3 views
0

У меня есть Java String, с SGML, что-то вроде этого ...Синтаксический Java Строка с SGML

<misspell></misspell><plain>I</plain> <plain>know</plain> <plain>you</plain> <suggestion>ducky</suggestion> <plain>suck</plain> <plain>and</plain> <plain>I</plain> <plain>rocky</plain> <plain>rock</plain> 

Как разобрать его, чтобы получить, например, говорят, что текст внутри <suggestion> </suggestion> так, чтобы получить «душка» вне??

Будет ли javax.swing.text.html.parser.Parse может быть любой помощи? или я могу только анализировать HTML-документы с ним?

ответ

1

Строка, которую вы показываете, не является HTML, но ее можно разобрать an XML parser.

SAX API является частью JDK и AFAIK, большинство XML-сигнеров реализуют его.

+1

Его просто простая строка. Будет ли работать SAX API (javax.xml.parsers)? –

+1

@Myth, из [Javadoc] (http://java.sun.com/j2se/1.4.2/docs/api/javax/xml/parsers/SAXParser.html): «XML может быть проанализирован из различных источники входного сигнала. Этими источниками являются InputStreams, Files, URLs и SAX InputSources ». И, кажется, можно построить InputSource с помощью StringReader. –

1

попробуйте синтаксический анализатор html, они (по необходимости) довольно прощают неправильную разметку и html по своей природе на основе SGML.

например. http://htmlparser.sourceforge.net/

 Смежные вопросы

  • Нет связанных вопросов^_^