2008-11-07 8 views
6

Если у меня есть сайт форумов с большим количеством потоков, будет ли поисковая система бот сканировать весь сайт каждый раз? Скажем, у меня более 1 000 000 потоков на моем сайте, будут ли они сканироваться каждый раз, когда бот сканирует мой сайт? или как это работает? Я хочу, чтобы мой сайт был проиндексирован, но я не хочу, чтобы бот убивал мой сайт! Другими словами, я не хочу, чтобы бот продолжал сканировать старые темы снова и снова каждый раз, когда он просматривает мой сайт.Как поисковые роботы сканируют форумы?

Кроме того, как насчет страниц, сканированных раньше? Будет ли бот запрашивать их каждый раз, когда он сканирует мой сайт, чтобы убедиться, что они все еще находятся на сайте? Я спрашиваю об этом, потому что я только ссылаюсь на последние потоки, т. Е. Есть страница, содержащая список всех последних потоков, но я не ссылаюсь на старые потоки, они должны быть явно запрошены по URL-адресу, например. http: // example.com/showthread.aspx?threadid=7, будет ли это работать, чтобы остановить бота от переноса моего сайта и потребления всей моей пропускной способности?

P.S. Сайт все еще находится в разработке, но я хочу знать, чтобы создать сайт, чтобы роботы поисковой системы не сбивали его.

ответ

8

Сложные вещи.

Из моего опыта это зависит в большей степени от того, какую схему URL вы используете для связывания страниц вместе, что будет определять, будет ли сканер сканировать страницы.

  • Большинство двигатель ползать весь сайт, если это все правильно гиперссылкой с ползания дружественных URL-адресов например используйте повторную переадресацию URL вместо pushID = 123 querystrings и что все страницы легко связаны несколькими кликами с главной страницы.

  • Другой случай - подкачка, если у вас есть пейджинг, иногда бот сканирует только первую страницу и останавливается, когда находит, что ссылка на следующей странице продолжает попадать в тот же документ, например. один index.php для всего веб-сайта.

  • Вы не хотите, чтобы бот случайно попал на веб-страницу, которая выполняет определенные действия, например. ссылку «Удалить тему», которая ссылается на «delete.php? topicID = 123», поэтому большинство искателей также проверит эти случаи.

  • Tools page at SEOmoz также предоставляет много информации и информации о том, как работают некоторые искатели, и какую информацию он будет извлекать и жевать и т. Д. Вы можете использовать их для определения страниц в глубине вашего форума, например. может быть просканировано годовое сообщение.

  • И некоторые сканеры позволяют настраивать их поведение при сканировании ... что-то вроде Google Sitemaps. Вы могли бы сказать им, чтобы они ползли и не сканировали, какие страницы и на каком порядке и т. Д. Я помню, что такие услуги доступны и от MSN и Yahoo, но я никогда не пробовал это самостоятельно.

  • Вы можете дросселировать обходного робота, чтобы он не подавлял ваш сайт, предоставив файл robots.txt в корне сайта.

В принципе, если вы создать свой форум, так что URL-адрес не выглядит враждебным к сканерам, это будет весело ползает весь сайт.

0

Чтобы опираться на то, что сказал chakrit, некоторые поисковые системы (в частности, Google) будут индексировать страницы с одним или двумя параметрами.После этого страница обычно игнорируется, вероятно, потому, что она считается слишком динамичной и, следовательно, ненадежной.

Лучше всего создавать дружественные URL-адреса SEO, которые лишены параметров, но вместо этого скрывают реализацию за чем-то вроде mod_rewrite в Apache или routes в Rails. (например, http://domain.com/forum/post/123 соответствует http://domain.com/forum/post.php?id=123).

Chakrit также упоминает Google Sitemaps. Они полезны для обеспечения того, чтобы Google просматривал каждую публикацию и постоянно сохранял ее в своем индексе. Джефф Этвуд обсуждает это на Stackoverflow podcast24, в котором он объясняет, что Google не хранит все сообщения Stackoverflow до тех пор, пока они не помещают каждый из них в карту сайта.

0

Сканирование ботов не сканирует весь ваш сайт сразу, а некоторые страницы с каждым посещением. Частота обхода и количества страниц, сканируемых каждый раз, сильно различаются для каждого сайта.

Каждая страница, индексированная Google, периодически просматривается, чтобы убедиться, что изменений нет.

Использование карты сайта, безусловно, полезно, чтобы поисковые системы индексировали как можно больше страниц.