2011-08-12 3 views
2

У меня есть apache перед zope 2 (несколько виртуальных хостов) с использованием стандартного простого правила перезаписи.Как предотвратить GoogleBot от поиска URL-адресов приобретений?

У меня большие проблемы с некоторыми из старых сайтов, которые я размещаю и googlebot.

Скажем, у меня есть:

  • site.example.com/documents/
  • site.example.com/images/i.jpg
  • site.example.com/xml/
  • site.example.com/flash_banner.swf

Как остановить следующее?

  • site.example.com/documents/images/xml/i.jpg
  • site.example.com/images/xml/i.jpg
  • site.example.com/images/i. JPG/XML/документы/flash_banner.swf

Все реагируют с правильным объектом из последней папки на конце URI, старые сайты, на которых не написано очень хорошо, и это в некоторых случаях Google собирается в и из сотен перестановок структур папок, которые не существуют, но всегда находят большие флеш-файлы. Таким образом, вместо того, чтобы робот Googlebot ударил файл Flash один раз, он перетаскивает его с сайта тысячи раз. Я в процессе перемещения старых сайтов Django. Но мне нужно остановить его в Зопе. В прошлом пробовали ipchains и mod_security, но на этот раз они не являются опцией.

ответ

2

Узнайте, какая страница предоставляет Google все варианты пути к тем же объектам. Затем закрепите эту страницу так, чтобы она предоставляла только канонические пути, используя методы absoute_url(), absoute_url_path() или virtual_url_path() для проходящих объектов.

Вы также можете использовать sitemaps.xml или robots.txt, чтобы сообщить Google, чтобы они не путали неправильные пути, но это определенно обходное решение, а не исправление, как указано выше.

+0

Я бы сделал то, что предлагает Росс, поскольку он решил мои проблемы один раз. Приобретение Zope2 раздражает, и вы не можете остановить его для всех объектов Zope. Если вы не ругаете '__bobo_traverse__' - это я не рекомендую. –

+0

Приветствия, теперь, чтобы найти эти страницы/ссылки. – Dean