2013-03-08 1 views
4

Я получаю эту ошибку при разборе веб-сайта. ОШИБКА: «Объявление для объекта« ContentType »должно заканчиваться на«> ». или тип ввода должен быть b закрытКак обрабатывать недопустимые HTML-документы из Интернета с библиотекой, которая хочет правильно HTML

+0

1: исправить ввод, 2 исправить библиотеку, чтобы она могла обрабатывать insect html –

+0

Попробуйте [jsoup] (http://jsoup.org/), он может иметь дело с brocken html. – A4L

ответ

2

Считаете ли вы, что JTidy?

JTidy is a Java port of HTML Tidy, a HTML syntax checker and pretty printer. Like its non-Java cousin, JTidy can be used as a tool for cleaning up malformed and faulty HTML. In addition, JTidy provides a DOM parser for real-world HTML.

Очевидно в какой-то момент он будет бороться с HTML в зависимости от того, насколько сильно сформированным это, но вы можете найти это работает для вас.

 Смежные вопросы

  • Нет связанных вопросов^_^