2010-09-29 1 views
2

Я использую POI для создания отчета по электронной таблице, у меня есть html-контент с <p>, <b/>, &nbsp; и т. Д., Как я разбираю эти теги html в POI ?. есть ли какая-либо функция в POI, которая может анализировать содержимое html?Анализ содержимого HTML в POI

это образец моего POI код:

HSSFCell cell = getHSSFCell(mysheet, 5, 1); 
cell.setCellValue(new HSSFRichTextString(htmlContent)); 

Спасибо заранее.

ответ

1

POI не для HTML, это для MS Office. то, что вы хотите использовать, - это Xpath для части разбора HTML. Xpath является кроличья нора его собственной, так что я не буду вдаваться в много деталей об этом, но вот некоторые ресурсы для Java XPath:

roseindia tutorial

javadocs

IBM Xpath API

0

Одним из простых решений было бы использовать парсер HTML для анализа содержимого HTML, а затем установить текст с помощью POI. Я использую HTML-парсер Jericho. http://jericho.htmlparser.net/docs/index.html

Простой HTML Синтаксический с помощью Иерихон:

Source source = new Source("The HTML Text"); 
String parsedHTMLText = source.getTextExtractor().toString();