Я использую JTidy v. R938. Я использую этот код, чтобы попытаться очистить страницу ...Как сделать JTIdy для корректного формирования HTML-документов?
final Tidy tidy = new Tidy();
tidy.setQuiet(false);
tidy.setShowWarnings(true);
tidy.setShowErrors(0);
tidy.setMakeClean(true);
Document document = tidy.parseDOM(conn.getInputStream(), null);
Но когда я анализирую этот URL - http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1, вещи не получают очищены. Например, мета-теги на странице, как
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
остаются
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
вместо того, чтобы иметь "</META >" тег или появляясь как "< META HTTP-эквив =" Content -Type "content =" text/html; charset = UTF-8 "/ >". Я подтверждаю это, выведя полученный JTidy org.w3c.dom.Document как String.
Что я могу сделать, чтобы JTidy действительно очистил страницу - т. Е. Сделал ее хорошо сформированной? Я понимаю, что есть другие инструменты, но этот вопрос конкретно связан с использованием JTIdy.
Когда-нибудь решение этой проблемы? –