2015-06-04 1 views
1

я наткнулся на сайт, который использует следующее в файле robots.txt:

User-agent: * 
Disallow: /*.php$ 

Так что же делать? Не позволит ли веб-сканерам сканировать следующие URL-адреса?

https://example.com/index.php 
https://example.com/index.php?page=Events&action=Upcoming 

Будет ли он блокировать субдомены?

https://subdomain.example.com/index.php 

ответ

4

Так что же делать?

По спецификации означает «URL-адреса, начинающиеся с /*.php$», что не очень полезно. Могут быть процессоры, которые поддерживают некоторый пользовательский синтаксис для него. Я знаю некоторые вспомогательные карты, но это похоже на синтаксис регулярных выражений, и я ничего не слышал о том, что поддерживает это в файле robots.txt.

Будет ли препятствовать сканированию веб-сканеров следующих URL-адресов?

По спецификации: Нет

Если что-то поддерживает regexs, то он будет блокировать первый, но не второй.

Будет ли он блокировать субдомены?

No. Каждое происхождение является независимым, когда дело доходит до robots.txt. Для сайта субдомена потребуется собственная копия ресурса.

 Смежные вопросы

  • Нет связанных вопросов^_^