Я строй веб-сканер для данного конкретного сайтаКак читать карту сайта и его каталоги?
И после проверки robots.txt
User-agent: *
Disallow: /site=
Disallow: /5480.iac.
Disallow: /go/
Disallow: /audio.html/
Disallow: /houseads/
Disallow: /askhome/
Disallow: /cite.html
Disallow: /23219321/iac.
Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml
и по ссылке на сайте-карту я был в состоянии загрузить и прочитайте его. Поэтому мой вопрос в том, как я могу прочитать карту сайта и найти каталоги, которые она мне запретила.
Извините, если мой вопрос слишком расплывчатый, но я не мог понять, как это работает, и я новичок в этой теме.
Цель карты сайта - помочь поисковым системам индексировать сайт. Он не должен содержать URL-адреса, которые запрещены в файле robots.txt. –
@DanNagle Итак, мне разрешено «обходить веб-сайт» с помощью моего собственного веб-гусеничного устройства? –