2010-07-26 5 views
2

Как возможно, что моя страница /admin/login.asp находится в Google с запросом «inurl: admin/login.asp», в то время как это не с «сайт: www.domain.xx»?Неиндексированный файл (?) Все еще найден в Google

Я эту строку кода в моем файле robots.txt:

User-agent: * 
Disallow: /admin/ 

И это в HTML код страницы:

<meta name="robots" content="noindex, nofollow" /> 

Любые идеи?

+2

Возможно ли, что страница существовала до того, как вы добавили/использовали ваш файл robots.txt? В случае htat для Google может потребоваться некоторое время, чтобы адаптироваться к изменению. –

+0

Нет, оба загружены в то же время, 4 месяца назад. И все же, почему разница между командой «inurl» и «site»? – waanders

ответ

0

Вы можете проверить на Google Webmaster, если robots.txt правильно интерпретируется Google. Вы также можете запросить удаление URL из индекса там.

+0

Да, GWT интерпретировал его правильно. Если я посмотрю на «Ошибки сканирования» «Я даже вижу замечание» URL, ограниченный robots.txt »для этой страницы« 19 июля 2010 » – waanders

+0

Конечно, я могу запросить удаление. Но мне было интересно, почему это найдено. я попрошу удалить его ПОСЛЕ того, как кто-то попытался взломать (??) мой сайт :-( – waanders

+0

@waanders: запросить удаление * и * спросить Google, почему он все еще найден. –

0

Когда вы находите URL-адрес на странице результатов поиска Google (SERP), имеет ли он тот же заголовок, что и в вашем теге? И есть ли у него описание/фрагмент?

Что я думаю о том, что Google знает о URL-адресе из ссылки на вашем сайте, поэтому он попытается выполнить сканирование и индексировать его. Однако, поскольку он заблокирован файлом robots.txt, не разрешается сканировать страницу, поэтому он не может видеть метатег noindex, который находится на вашей странице входа.

Поскольку он не знает, что он не должен индексировать страницу, Google добавит URL-адрес в свой индекс. Тем не менее, такие страницы, как правило, имеют только заголовок и URL-адрес в SERP, и они почти всегда не имеют описания/фрагмента. Иногда заголовок в SERP выглядит так, как будто они просматривали страницу, но то, что они на самом деле делают, это попытка создать заголовок на основе якорного текста ссылок, указывающих на него.

Верный способ получения страницы, не отображаемой в SERP, состоит в том, чтобы удалить команду Disallow: /admin/ и разрешить роботу Googlebot сканировать страницу и увидеть метатег noindex, nofollow.

Команда noindex удалит страницу из SERP, а nofollow поможет сообщать Googlebot о том, чтобы не отдавать приоритет ссылкам, которые он находит на вашей странице входа (это поможет поддерживать эффективность сканирования, но не гарантирует Google не будет сканировать ссылки, найденные на странице).

+0

Я не знаю Я не могу это проверить, потому что Google уже принял мой запрос на удаление – waanders

+0

Но удаление Disallow:/admin /? Может быть, оно предназначено для предотвращения индексирования страниц? В любом случае спасибо за помощь и мысли – waanders

+0

@waanders Запрет co mmand в файле robots.txt не препятствует тому, чтобы страница была индексом, но это предотвращает индексацию содержимого страницы. Это небольшая разница, но значительная. Поисковые системы будут добавлять URL-адрес в свой индекс и даже использовать популярные URL-адреса, даже если они никогда не видели содержимое страницы.Единственный способ предотвратить отображение содержимого и URL-адреса в SERP - позволить сканерам видеть страницу, индексировать ее, а также видеть команду noindex, которая на самом деле просто означает, не отображаться в SERP. – eywu