2017-02-11 10 views
0

Я хочу создать приложение, которое случайно получает доступ к страницам с другого сайта. Этот сайт имеет более 40 000 страниц и не имеет api.Скопируйте несколько ссылок с веб-сайта

Как я могу собрать URL-адрес всех этих 40 000 страниц? Скопировать и вставить будет вечно.

Все эти страницы имеют ту же структуру, подобную site.com/directory/1.html, site.com/directory/2.html и т.д.

+0

Уже был дан ответ - http://stackoverflow.com/questions/2804467/spid er-a-website-and-return-urls-only – PressingOnAlways

+0

@PressingOnAlways Это похоже специально для 'wget'. OP отметил это с помощью JavaScript. –

+0

OP предполагает копирование и склеивание всех URL-адресов, предполагающих, что он может выполнять обработку данных. Я предлагаю использовать wget или некоторую установленную методологию захвата URL-адресов и импортировать их в ваше приложение. Я не вижу необходимости повторно изобретать веб-очищающий бот. – PressingOnAlways

ответ

0

PhantomJS отлично подходит для этого. Или вы могли бы изучить NodeJS и настроить «скребок», который в основном захватит html каждой страницы с помощью запроса GET и проанализирует его, используя что-то вроде cheerio (jquery для serveride).

Ваш вопрос довольно широк, так как существует много способов затопить корабль. Вы просто должны выбрать инструмент и пойти на него. Удачи!

0

Для этого в разных средах используется несколько инструментов. Вы могли бы добиться этого с:

  • Node.js - Среда
  • request - Запрос HTTP инструмента
  • cheerio - HTML-синтаксического анализа инструмент, который поддерживает JQuery-как селекторы, как $("a.somelink-selector")
  • Возможно, async library к более легко контролировать, сколько запросов вы будете делать за один раз

 Смежные вопросы

  • Нет связанных вопросов^_^