2009-10-07 1 views
0

Я хочу прочитать содержимое веб-сайта и сохранить его в файле с помощью C# и asp.net. Я знаю, что мы можем прочитать его, используя httpwebrequest. Но можно ли читать все доступные данные ссылок?Как читать содержимое веб-сайта?

Ex: предположим, что хочу читать http://www.msn.com Я могу напрямую указать URL-адрес и могу прочитать данные домашней страницы, которая не является проблемой. Но здесь, что страница msn.com содержит так много ссылок на главной странице, я хочу также прочитать содержимое этих страниц. Является ли это возможным?

Может ли кто-нибудь дать мне стартап для этого?

Заранее спасибо

+0

Попробуйте себе, это довольно легко, если вы думаете о проблеме. Если у вас все еще есть трудности, вернитесь, отправьте код, который вы используете, и объясните, как он терпит неудачу, и я уверен, что вы получите некоторую помощь. – Lazarus

ответ

1
  1. определяют очередь URLs

  2. добавить главную страницу URL в очередь

  3. пока очередь не Empy

3,1 CURRENTURL = Dequeue()

3.2 читать текущий url

3.3 exctarct все URL-адреса текущей страницы с использованием регулярного выражения.

3,4 добавить все адреса в очереди

Вам придется ограничить URLs в очереди на какой-то глубине или в какой-либо области, в противном случае вы будете пытаться загрузить весь интернет :)

+0

привет благодарю вас за ваш быстрый ответ. Может ли вы дать мне простой пример для извлечения URL-адресов с текущей страницы? – Nagu

+0

Я бы пошел с «Beautiful Soup» для соскабливания страницы. – jldupont

+0

3.35 Для каждого найденного URL-адреса игнорируйте его, если он уже был посещен. В противном случае вы можете оказаться в цикле. –

 Смежные вопросы

  • Нет связанных вопросов^_^