Неполный robots.txt, что происходит?

У меня есть страница на веб-сайте, и у меня нет доступа к чему-либо другому, что моя страница. Веб-сайт используется для продажи различных небольших продуктов. После того, как вы проработали более года, и используя Google AdWords, чтобы помочь продвинуть себя, я заметил, что ни одна из страниц продукта не была проиндексирована в Google. Когда я заметил, что файл robots.txt для сайта не содержит многого, и интересно, имеет ли это какое-либо отношение к нему.Неполный robots.txt, что происходит?

URL-продукта имеют следующий формат:

www.example.com/myshopname/[product ID]?q=I[product ID]

И robots.txt просто:

Disallow: /*_escaped_fragment_

Там нет агента пользователя. Мне интересно, повлияет ли это на Google, сканирующую мою страницу, или если он просто проигнорирует файл robots.txt, поскольку не указан агент-агент.

источник

2016-10-02 Alex

Получить более подробную информацию здесь: https://moz.com/learn/seo/robotstxt – Franco

@Franco Я прочитал документацию по роботам, ничего о неполных файлах robot.txt. Из того, что я знаю, вы должны сначала ввести пользовательский агент, а затем правило запрета. Я не уверен, что произойдет, если пользовательский агент не будет предоставлен ... роботы действуют так, как если бы пользовательский агент был *, или он просто игнорирует правило запрета, поскольку агент-агент не указан. Если бы это было как пользовательский агент, являющийся *, то как применить правило? Поскольку обход AJAX теперь устарел, игнорирует ли это правило? – Alex

Эти роботы.txt недействителен (согласно original specification), поскольку для каждой записи требуется, по меньшей мере, один User-agent и по меньшей мере одна линия Disallow.

В спецификации не говорится, что потребители должны (пытаться) интерпретировать недопустимые записи.

Таким образом, предположение:

Строгие потребители будут игнорировать эту недопустимую запись. Для этих потребителей, ваш robots.txt будет эквивалентен несуществующим robots.txt, что эквивалентно этому один:
```
User-agent: * 
Disallow: 
```
(то есть, все дозволено)
Вежливые потребители могли бы предположить, что автор намеревался иметь User-agent: * для этой записи. Для этих потребителей, ваш robots.txt будет эквивалентно следующему:
```
User-agent: * 
Disallow: /*_escaped_fragment_ 
```

В любом случае, ваш robots.txt будет (скорее всего) остановить не потребителя от ползающих URL-адресов, чьи пути начинаются с /myshopname/ (если URL-адрес не содержит _escaped_fragment_, и в этом случае некоторые пользователи могут перестать обходить его, то есть те, которые интерпретируют * как подстановочный знак, который, кстати, не входит в исходную спецификацию).

источник

2016-10-03 22:41:16 unor

Спасибо, это то, что я искал. Угадайте, если робот сканирует, это будет зависеть от того, как он пытается это интерпретировать. – Alex

Я дам вам больше информации здесь:

Файл robots.txt представляет собой простой текстовый файл на вашем веб-сервере, который говорит webcrawlers, если они могут получить доступ к файлу или нет. Вы всегда можете получить доступ к этому файлу, потому что он не является частью файлов вашей серверной системы, но является частью вашего сайта.

В вашем случае я не знаю, что это /*_escaped_fragment_ средство, но:

User-agent: * 
Disallow:/

будет блокировать доступ ко всем сканерам

В то время как это:

User-agent: * 
Disallow:

Разрешать полный доступ к вашему сайту.

User-agent: * 
Disallow: /images/

будет блокировать доступ к указанной папке

User-agent: * 
Disallow: /images 
Allow: /images/my_photo.jpg

Даже если запретить папку, вы всегда можете дать доступ к указанному файлу в этой папке.

User-agent: * 
Disallow: /assets.html

будет блокировать доступ к указанному файлу

Так star означает, что все искатель, если вы хотите применить директивы к указанному гусеничным вам нужно сделать:

User-agent: Googlebot

Если вы специально заинтересованный в googlebot, и вы хотите узнать, блокирует ли ваш robot.txt файлы или папки на вашем сайте, просто зайдите в https://developers.google.com/, чтобы вы могли видеть, блокируете ли вы ресурсы страниц.

Также необходимо сказать, что, хотя robot.txt может быть полезным инструментом для вашего SEO, применяемые директивы будут соблюдаться всеми обычными сканерами.

Злоумышленники не заботятся об этих директивах.

источник

2016-10-03 08:50:57 Franco

Я уже знал, для чего нужен файл robots.txt, как его использовать, и документацию на нем. Мой вопрос состоял в том, как читать ** незавершенный файл роботов **. – Alex

ответ

Смежные вопросы