2012-01-19 6 views
0

У меня есть набор из 1000 страниц (ссылок), которые я получаю, помещая запрос в Google. Я использую JSoup. Я хочу избавиться от изображений, ссылок, меню, видео и т. Д. И взять только основную статью с каждой страницы.Получить только текст с нескольких страниц с помощью JSoup

Моя проблема в том, что на каждой странице есть другое дерево DOM, поэтому я не могу использовать одну и ту же команду для каждой страницы! Вы знаете какой способ сделать это за 1000 страниц одновременно? Я предполагаю, что я должен использовать регулярные выражения. Что-то вроде этого возможно

textdoc.body().select("[id*=main]").text();//get id that contains the word main 
textdoc.body().select("[class*=main]").text();//get class that contains the word main 
textdoc.body().select("[id*=content]").text();//get id that contains the word content 

Но я чувствую, что всегда буду что-то пропустить. Любые лучшие идеи?

ответ

0
Element main = doc.select("div.main").first(); 
Elements links = main.select("a[href]"); 

Все разные страницы имеют основной класс для основной статьи?

+0

это проблема ... я думаю, нет ... – argi

+0

у вас есть похожие на каждую страницу? – JackTurky

+0

Я не могу проверить 1000 страниц: p: p – argi

 Смежные вопросы

  • Нет связанных вопросов^_^