Скопируйте несколько ссылок с веб-сайта

Я хочу создать приложение, которое случайно получает доступ к страницам с другого сайта. Этот сайт имеет более 40 000 страниц и не имеет api.Скопируйте несколько ссылок с веб-сайта

Как я могу собрать URL-адрес всех этих 40 000 страниц? Скопировать и вставить будет вечно.

Все эти страницы имеют ту же структуру, подобную site.com/directory/1.html, site.com/directory/2.html и т.д.

источник

2017-02-11 Fábio Alves

Уже был дан ответ - http://stackoverflow.com/questions/2804467/spid er-a-website-and-return-urls-only – PressingOnAlways

@PressingOnAlways Это похоже специально для 'wget'. OP отметил это с помощью JavaScript. –

OP предполагает копирование и склеивание всех URL-адресов, предполагающих, что он может выполнять обработку данных. Я предлагаю использовать wget или некоторую установленную методологию захвата URL-адресов и импортировать их в ваше приложение. Я не вижу необходимости повторно изобретать веб-очищающий бот. – PressingOnAlways

PhantomJS отлично подходит для этого. Или вы могли бы изучить NodeJS и настроить «скребок», который в основном захватит html каждой страницы с помощью запроса GET и проанализирует его, используя что-то вроде cheerio (jquery для serveride).

Ваш вопрос довольно широк, так как существует много способов затопить корабль. Вы просто должны выбрать инструмент и пойти на него. Удачи!

источник

2017-02-11 04:41:41 matt

Для этого в разных средах используется несколько инструментов. Вы могли бы добиться этого с:

Node.js - Среда
request - Запрос HTTP инструмента
cheerio - HTML-синтаксического анализа инструмент, который поддерживает JQuery-как селекторы, как $("a.somelink-selector")
Возможно, async library к более легко контролировать, сколько запросов вы будете делать за один раз

источник

2017-02-11 04:45:14

Скопируйте несколько ссылок с веб-сайта

ответ

Смежные вопросы