2017-02-18 17 views
1

Я строй веб-сканер для данного конкретного сайтаКак читать карту сайта и его каталоги?

http://www.dictionary.com

И после проверки robots.txt

User-agent: * 
Disallow: /site= 
Disallow: /5480.iac. 
Disallow: /go/ 
Disallow: /audio.html/ 
Disallow: /houseads/ 
Disallow: /askhome/ 
Disallow: /cite.html 
Disallow: /23219321/iac. 

Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml 

и по ссылке на сайте-карту я был в состоянии загрузить и прочитайте его. Поэтому мой вопрос в том, как я могу прочитать карту сайта и найти каталоги, которые она мне запретила.

Извините, если мой вопрос слишком расплывчатый, но я не мог понять, как это работает, и я новичок в этой теме.

+0

Цель карты сайта - помочь поисковым системам индексировать сайт. Он не должен содержать URL-адреса, которые запрещены в файле robots.txt. –

+0

@DanNagle Итак, мне разрешено «обходить веб-сайт» с помощью моего собственного веб-гусеничного устройства? –

ответ

0

Вы не можете сканировать URL, чей путь начинается с /site=, /5480.iac., ..., /cite.html или /23219321/iac..

Например,

вы не допускаются ползать URL, подобные этим:

http://www.dictionary.com/go/ 
http://www.dictionary.com/go/foo 
http://www.dictionary.com/go/foo/bar 

вы позволили ползать URL, подобные этим:

http://www.dictionary.com/go 
http://www.dictionary.com/go.html 
http://www.dictionary.com/foo/go/ 

Если Карта сайта содержит URL-адреса, которые вам не разрешено сканировать в соответствии с файлом robots.txt, это все еще не разрешено d для вас, чтобы ползать их.
Хотя может показаться нелогичным включать URL-адреса, которые не должны сканироваться в карте сайта, это может иметь смысл (например, потому что карта сайта используется другими агентами, чем искатели, или потому, что только нескольким конкретным ботам не разрешено сканирование) ,