2014-12-29 4 views
0

Я пытаюсь отменить некоторые данные из Википедии со 100 страниц (приблизительно). (страницы имеют одинаковый формат). Wikipedia сделала свой API доступным, который дает контент в формате XML, или я могу напрямую получать данные со страницы с помощью jsoup.StAX vs jsoup: это лучший способ проанализировать веб-страницу, если XML доступен через API

Какой метод следует использовать для утилизации данных?

ответ

0

Поскольку API доступен, вы должны использовать этот подход. Содержимое хорошо сформировано, и представление не изменится, если вы не заметите, что хорошо может быть на веб-странице. Использование утилиты html для получения содержимого, которое вы хотите, связано с ошибкой, поскольку незначительные изменения в стилировании могут сломать ваши селектора и сделать вас ненужным.

Поскольку wikipedia использует XML, скорее всего, использует веб-службу SOAP (не обязательно, хотя). Если это так, должен быть доступен wsdl, который вы можете использовать с картой CXF для мгновенного создания клиента веб-сервиса. Если вы не знакомы с мыльными услугами, посмотрите здесь http://cxf.apache.org/docs/a-simple-jax-ws-service.html.

CXF поставляется с некоторыми великолепными сценариями генератора pojo. Проверьте wsdl2java. Запустив этот скрипт, вы можете указать цель (wsdl), и сценарий будет генерировать все классы, необходимые для использования этого веб-сервиса.

Update

Википедия использует REST услуги, он просто дает возможность XML как тип контента. Ответ довольно прост. Для ответа можно использовать Gson, а затем проанализировать интересующий атрибут, который представляет собой html-контент с помощью jsoup.

Update

  1. Создать Maven проект, как этот https://www.youtube.com/watch?v=uv9tXFrTLtI
  2. Добавить Стакс зависимость в ПОМ http://mvnrepository.com/artifact/stax/stax/1.2.0
  3. Получить кодирования, начав с примера http://www.javacodegeeks.com/2013/05/parsing-xml-using-dom-sax-and-stax-parser-in-java.html
+0

Я нуб, можете ли вы подробно объяснить, как точно использовать Maven вместе с StAX? – Ankit

+0

, а также XML Wiki (http://en.wikipedia.org/w/api.php?action=parse&format=xml&prop=text&page=Brad_Pitt_filmography§ion=1&contentformat=text/plain) в основном html, его трудно разобрать без разницы – Ankit

+0

Проверьте мое обновление. – alkis

 Смежные вопросы

  • Нет связанных вопросов^_^