2016-01-18 2 views
1

Нам нужно добавить определенные URL-адреса через канал метаданных и URL-адресов и не дать GSA следовать ссылкам, найденным на этих страницах. URL-адреса, найденные на этих страницах, должны игнорироваться, даже если они указаны в правилах Follow Patterns.Глубина сканирования для URL-адресов, добавленных с помощью метаданных и URL-адресов.

Возможно ли указать глубину сканирования для URL-адресов, добавленных через , метаданные и URL-адреса, или, возможно, есть некоторые другие способы предотвращения следования GSA URL-адресов, найденных на определенных страницах?

ответ

0

Вы не можете решить эту проблему только с метаданными, и -URL. GSA собирается обходить найденные ссылки, если вы не можете указать шаблоны для их блокировки.

Есть несколько возможных решений, о которых я могу думать.

  1. Вы можете заменить фид метаданных и URL-адресом фидом контента. Затем вы должны получить все, что хотите индексировать, и включить их в фид. Ваша программа fetch может удалить все ссылки, иначе она может «сломать» относительные ссылки, указав неверный URL для каждого из документов. Затем вам придется переписать неверные URL-адреса обратно на правильные URL-адреса на странице отображения результатов поиска. Я сделал второй подход раньше, и это довольно легко сделать.

  2. Вы можете использовать прокси-сервер обхода, чтобы заблокировать доступ к любой из ссылок, которые вы не хотите использовать GSA.

0

Самый простой способ предотвратить это - добавить следующее в раздел «ГОЛОВА» вашего HTML.

Это предотвратит GSA (и любой другой поисковой системы) из следующих каких-либо ссылок на этой странице.

+0

Hi Terry. Спасибо за ответ. Мы должны указывать эти правила только для GSA, эти страницы должны быть доступны для других поисковых систем. –

+0

GSA - это веб-искатель, поэтому он будет следить за ссылками, если вы не настроите GSA со списком известных URL-адресов, чтобы не сканировать. –

0

Поскольку вы говорите, что не можете добавить соответствующие метатеги nofollow к своему контенту, вы можете справиться с этим, используя ваши шаблоны отслеживания и сканирования.

От official documentation:

Google рекомендует ползать на максимальную глубину, позволяя алгоритм Google, чтобы предоставить пользователю с лучшими результатами поиска. Вы можете использовать шаблоны URL, чтобы контролировать, сколько уровней подкаталогов включено в индекс.

Например, следующие шаблоны URL вызывают поисковое устройство для сканирования первых три подкаталогов на сайте www.mysite.com:

regexp:www\\.mysite\\.com/[^/]*$ 
regexp:www\\.mysite\\.com/[^/]*/[^/]*$ 
regexp:www\\.mysite\\.com/[^/]*/[^/]*/[^/]*$ 
+0

HI BigMikeW, спасибо за ваш ответ! Проблема в том, что страницы могут содержать другие URL-адреса с одинаковым шаблоном (то же самое). Например, мы добавим URL http://example.com/123 через канал, искатель перейдите на эту страницу и найдите URL http://example.com/223 и добавьте его в индекс, но нужно добавить только 123. –

+0

Вы можете передать роботам nofollow так же, как и в других метаданных в вашем канале. Вы пытались добавить метаданные роботов к каждому документу в фиде? – BigMikeW

+0

Да, я попробовал. Похоже, GSA игнорирует их._В общем случае, роботы META-теги со значением noindex, nofollow или noarchive могут быть встроены в заголовок HTML-документа, чтобы запретить поисковое устройство индексировать ссылки или следовать им в документе. Тем не менее, метки роботов META в файле фида не выполняются, а только теги META в самих документах HTML. Https://www.google.com/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/ feedsguide/feedsguide.html # 1073150 –