Поскольку API доступен, вы должны использовать этот подход. Содержимое хорошо сформировано, и представление не изменится, если вы не заметите, что хорошо может быть на веб-странице. Использование утилиты html для получения содержимого, которое вы хотите, связано с ошибкой, поскольку незначительные изменения в стилировании могут сломать ваши селектора и сделать вас ненужным.
Поскольку wikipedia использует XML, скорее всего, использует веб-службу SOAP (не обязательно, хотя). Если это так, должен быть доступен wsdl, который вы можете использовать с картой CXF для мгновенного создания клиента веб-сервиса. Если вы не знакомы с мыльными услугами, посмотрите здесь http://cxf.apache.org/docs/a-simple-jax-ws-service.html.
CXF поставляется с некоторыми великолепными сценариями генератора pojo. Проверьте wsdl2java. Запустив этот скрипт, вы можете указать цель (wsdl), и сценарий будет генерировать все классы, необходимые для использования этого веб-сервиса.
Update
Википедия использует REST
услуги, он просто дает возможность XML как тип контента. Ответ довольно прост. Для ответа можно использовать Gson, а затем проанализировать интересующий атрибут, который представляет собой html-контент с помощью jsoup.
Update
- Создать Maven проект, как этот https://www.youtube.com/watch?v=uv9tXFrTLtI
- Добавить Стакс зависимость в ПОМ http://mvnrepository.com/artifact/stax/stax/1.2.0
- Получить кодирования, начав с примера http://www.javacodegeeks.com/2013/05/parsing-xml-using-dom-sax-and-stax-parser-in-java.html
Я нуб, можете ли вы подробно объяснить, как точно использовать Maven вместе с StAX? – Ankit
, а также XML Wiki (http://en.wikipedia.org/w/api.php?action=parse&format=xml&prop=text&page=Brad_Pitt_filmography§ion=1&contentformat=text/plain) в основном html, его трудно разобрать без разницы – Ankit
Проверьте мое обновление. – alkis