Получить только текст с нескольких страниц с помощью JSoup

У меня есть набор из 1000 страниц (ссылок), которые я получаю, помещая запрос в Google. Я использую JSoup. Я хочу избавиться от изображений, ссылок, меню, видео и т. Д. И взять только основную статью с каждой страницы.Получить только текст с нескольких страниц с помощью JSoup

Моя проблема в том, что на каждой странице есть другое дерево DOM, поэтому я не могу использовать одну и ту же команду для каждой страницы! Вы знаете какой способ сделать это за 1000 страниц одновременно? Я предполагаю, что я должен использовать регулярные выражения. Что-то вроде этого возможно

textdoc.body().select("[id*=main]").text();//get id that contains the word main 
textdoc.body().select("[class*=main]").text();//get class that contains the word main 
textdoc.body().select("[id*=content]").text();//get id that contains the word content

Но я чувствую, что всегда буду что-то пропустить. Любые лучшие идеи?

источник

2012-01-19 argi

Element main = doc.select("div.main").first(); 
Elements links = main.select("a[href]");

Все разные страницы имеют основной класс для основной статьи?

источник

2012-01-19 11:56:44 JackTurky

это проблема ... я думаю, нет ... – argi

у вас есть похожие на каждую страницу? – JackTurky

Я не могу проверить 1000 страниц: p: p – argi

Получить только текст с нескольких страниц с помощью JSoup

ответ

Смежные вопросы