2009-09-30 3 views
10

Можно ли точно настроить директивы для Google до такой степени, что она будет игнорировать часть страницы, но все же укажет остальное?Есть ли способ предотвратить Googlebot от индексирования определенных частей страницы?

Есть несколько различных вопросов мы столкнулись, которые помогли бы в этом, такие как:

  • RSS подача/бегущая строка типа текста на странице отображаются содержимое от внешнего источника
  • пользователи, входящие контактный телефон и т.д. детали, которые хотят, чтобы они видны на сайте, но предпочел бы не быть Google-состоянии

Я знаю, что оба выше, могут быть решены с помощью других методов (например, письма контент с JavaScript), но мне интересно если кто-нибудь знает, есть ли более чистый вариант, уже доступный от Google?

Я делал некоторые рывки на этом и натолкнулся на упоминания о googleon and googleoff tags, но они, похоже, являются эксклюзивными для Google Search Appliances.

Кто-нибудь знает, есть ли подобный набор тегов, к которым Googlebot будет придерживаться?

Редактировать: Просто для уточнения, я не хочу идти по опасному маршруту клоакинга/подавать разное содержимое в Google, поэтому я смотрю, есть ли «законный» способ что я хотел бы сделать здесь.

ответ

9

То, о чем вы просите, не может быть сделано, Google либо берет всю страницу, либо ничего из этого.

Вы можете сделать некоторые подлые трюки, хотя вставьте часть страницы, которую вы не хотите индексировать в iFrame, и используйте файл robots.txt, чтобы попросить Google не индексировать этот iFrame.

1

Вкратце NO - если вы не используете клоакинг, с помощью Google не рекомендуется.

-2

Существуют метатеги для ботов, а также есть файл robots.txt, с помощью которого вы можете ограничить доступ к определенным каталогам.

+0

мета-теги и robots.txt, как разрешить или запретить доступ на уровне файлов, мне очень интересно, если вы можете позволить странице быть проиндексированы, но блокировать определенную часть. – ConroyP

-2

Все поисковые системы индексируют или игнорируют всю страницу. Единственный возможный способ осуществить то, что вы хотите, чтобы:

(а) имеют две разные версии одной и той же странице

(б) обнаружить браузер используется

(с) Если это поисковая система , выполните вторую версию своей страницы.

This link может оказаться полезным.

+6

Это хороший способ заблокировать ваш сайт от Google. – Greg

+2

Действительно (http://www.google.com/support/webmasters/bin/answer.py?hl=ru&answer=66355): «Выполнение разных результатов на основе пользовательский агент может заставить ваш сайт восприниматься как обманчивый и удалить из индекса Google ». – Anax

-1

На вашем сервере обнаружение поискового робота по IP с помощью PHP или ASP. Затем подайте IP-адреса, которые попадают в этот список, на версию страницы, которую вы хотите проиндексировать. В этой поисковой системе вашей страницы используйте тег канонической ссылки, чтобы указать поисковой системе версию страницы, которую вы не хотите индексировать.

Таким образом, страница с содержимым, которое хочет быть индексом, будет индексироваться по адресу только в том случае, если будет проиндексирован только контент, который вы хотите проиндексировать. Этот метод не будет блокировать вас поисковыми системами и полностью безопасен.

+1

Как отмечается в отдельном комментарии, это может привести к удалению вашего сайта из Google. – Phrogz

1

Пожалуйста, ознакомьтесь с официальной документацией здесь

http://code.google.com/apis/searchappliance/documentation/46/admin_crawl/Preparing.html

Перейти в раздел «Исключая ненужный текст из индекса»

<!--googleoff: index--> 
here will be skipped 
<!--googleon: index--> 
+9

К сожалению, это относится только к Google Search Appliance, а не к общедоступному веб-сайту Google. – Phrogz

-1

Да, безусловно, вы можете остановить Google индексировать некоторые части ваш сайт, создав собственный файл robots.txt и напишите, какие части вы не хотите индексировать, например, wpadmins, или конкретную запись или страницу, чтобы вы могли сделать это легко, создав этот файл robots.txt. наш сайт robots.txt, например, www.yoursite.com/robots.txt.

0

Нашел полезный ресурс для использования определенного дублированного контента и не позволял индексу поисковой системой для такого контента.

<p>This is normal (X)HTML content that will be indexed by Google.</p> 

<!--googleoff: index--> 

<p>This (X)HTML content will NOT be indexed by Google.</p> 

<!--googleon: index>