Правильное использование JTidy для очистки HTML

Я пытаюсь использовать JTidy (jtidy-r938.jar) для дезинфекции входной строки HTML, но у меня, похоже, проблемы с настройками по умолчанию. Часто строки, такие как «hello world», заканчиваются как «helloworld» после уборки. Я хотел показать, что я здесь делаю, и любые указатели были бы оценены по достоинству:Правильное использование JTidy для очистки HTML

Предположим, что rawHtml - это строка, содержащая HTML-код ввода (реального мира). Это то, что я делаю:

 Tidy tidy = new Tidy(); 
     tidy.setPrintBodyOnly(true); 

     ByteArrayOutputStream baos = new ByteArrayOutputStream(); 
     PrintStream ps = new PrintStream(baos); 

     tidy.parse(new StringReader(rawHtml), ps); 
     return baos.toString("UTF8");

Во-первых, ничего не делает выглядеть принципиально неправильно с указанным кодом? Похоже, я получаю странные результаты.

Например, рассмотрим следующий вход:

???private String parseDescription

Выход есть:

    privateString parseDescription

Так,

"общественное Строка parseDescription" становится "publicString parseDescription"

Спасибо заранее!

источник

2010-03-30 ragebiswas

Я также заметил, что jTidy преобразует ' ' в byte 'a0', который печатает как пробел (' Node.getNodeValue() '), но когда вы пытаетесь преобразовать в строку UTF8, он распечатает'? ' потому что это не действительный символ UTF! Ну, это [unicode] (http://www.unicode.org/charts/PDF/U0080.pdf), но не является HTML и отображается как '?'. – Chloe

Ну, похоже, это ошибка в Jtidy. Для точного файла, который вызывает проблемы, обратитесь сюда:

http://sourceforge.net/tracker/?func=detail&aid=2985849&group_id=13153&atid=113153

Спасибо за помощь людям!

источник

2010-04-12 13:58:58 ragebiswas

Вот как мы называем JTidy от Ant. Вы можете сделать вывод вызова API из него:

<tidy destdir="${build.dir.result}"> 
    <fileset dir="${src}" includes="**/*.htm"/> 
    <parameter name="tidy-mark" value="false"/> 
    <parameter name="output-xml" value="no"/> 
    <parameter name="numeric-entities" value="yes"/> 
    <parameter name="indent-spaces" value="2"/> 
    <parameter name="indent-attributes" value="no"/> 
    <parameter name="markup" value="yes"/> 
    <parameter name="wrap" value="2000"/> 
    <parameter name="uppercase-tags" value="no"/> 
    <parameter name="uppercase-attributes" value="no"/> 
    <parameter name="quiet" value="no"/> 
    <parameter name="clean" value="yes"/> 
    <parameter name="show-warnings" value="yes"/> 
    <parameter name="break-before-br" value="yes"/> 
    <parameter name="hide-comments" value="yes"/> 
    <parameter name="char-encoding" value="latin1"/> 
    <parameter name="output-html" value="yes"/> 
</tidy>

источник

2010-03-31 06:36:26

Посмотрите, как JTidy настроен:

StringWriter writer = new StringWriter(); 
tidy.getConfiguration().printConfigOptions(writer, true); 
System.out.println(writer.toString());

Может быть, затем получить ясно, что вызывает проблему.

Что странно? Маленький пример, фактического выхода и ожидаемого ... может быть?

источник

2010-04-09 16:05:49 Verhagen

Да, обновил сообщение с странной проблемой – ragebiswas

решил мою проблему тоже, thx! – jambriz

Правильное использование JTidy для очистки HTML

ответ

Смежные вопросы