У меня есть набор из 1000 страниц (ссылок), которые я получаю, помещая запрос в Google. Я использую JSoup. Я хочу избавиться от изображений, ссылок, меню, видео и т. Д. И взять только основную статью с каждой страницы.Получить только текст с нескольких страниц с помощью JSoup
Моя проблема в том, что на каждой странице есть другое дерево DOM, поэтому я не могу использовать одну и ту же команду для каждой страницы! Вы знаете какой способ сделать это за 1000 страниц одновременно? Я предполагаю, что я должен использовать регулярные выражения. Что-то вроде этого возможно
textdoc.body().select("[id*=main]").text();//get id that contains the word main
textdoc.body().select("[class*=main]").text();//get class that contains the word main
textdoc.body().select("[id*=content]").text();//get id that contains the word content
Но я чувствую, что всегда буду что-то пропустить. Любые лучшие идеи?
это проблема ... я думаю, нет ... – argi
у вас есть похожие на каждую страницу? – JackTurky
Я не могу проверить 1000 страниц: p: p – argi