Я получаю эту ошибку при разборе веб-сайта. ОШИБКА: «Объявление для объекта« ContentType »должно заканчиваться на«> ». или тип ввода должен быть b закрытКак обрабатывать недопустимые HTML-документы из Интернета с библиотекой, которая хочет правильно HTML
4
A
ответ
2
Считаете ли вы, что JTidy?
JTidy is a Java port of HTML Tidy, a HTML syntax checker and pretty printer. Like its non-Java cousin, JTidy can be used as a tool for cleaning up malformed and faulty HTML. In addition, JTidy provides a DOM parser for real-world HTML.
Очевидно в какой-то момент он будет бороться с HTML в зависимости от того, насколько сильно сформированным это, но вы можете найти это работает для вас.
1: исправить ввод, 2 исправить библиотеку, чтобы она могла обрабатывать insect html –
Попробуйте [jsoup] (http://jsoup.org/), он может иметь дело с brocken html. – A4L