2009-07-20 2 views
11

Я знаю, что алгоритм поиска Google основан в основном на pagerank. Однако он также анализирует и использует структуру документа H1, H2, title и другие теги HTML для улучшения результатов поиска.Как Google использует HTML-теги для улучшения поисковой системы?

Каково название этой методики «с использованием структуры документа для улучшения результатов поиска»?

И есть ли какие-либо научные документы, которые помогут мне изучить эту область?

Тот факт, что Google учитывает структуру HTML, хорошо освещен в статьях SEO, но я не мог найти его в научных статьях.

+0

Я предполагаю, что это в основном разбирает страницу HTML, чтобы прочитать содержание. В Perl-http://search.cpan.org/dist/HTML-Parser/ –

ответ

17

Я думаю, что это называется "Semantic Markup"

[...] семантическая разметка разметка, достаточно описательный, чтобы позволить нам и машину мы программе, чтобы распознать его и принимать решения об этом. Другими словами, разметка означает что-то, когда мы можем идентифицировать ее и делать с ней полезные вещи. Таким образом, семантическая разметка становится более чем просто описательной. Он становится блестящим механизмом, который позволяет и людям, и машинам «понимать» ту же информацию. http://www.digital-web.com/articles/writing_semantic_markup/

Более практичное статья здесь http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/

+3

Я не вижу релевантности смысловой разметки для вопроса OP, если вы не можете также показать это имеет некоторое отношение к поисковым системам. – cletus

+2

@cletus: с помощью семантической разметки, такой как <h1> для основного заголовка, позволяет поисковой системе иметь большую уверенность в структуре страницы, что влияет на ее ранжирование этой страницы для соответствующих условий поиска. Хотя поисковые системы хорошо используют эвристику, чтобы угадать структуру страниц, которые не используют семантическую разметку, они определенно принимают во внимание семантическую разметку, когда они ее находят. Руководство для начинающих SEO Google http://googlewebmastercentral.blogspot.com/2008/11/googles-seo-starter-guide.html содержит раздел «Использовать заголовок заголовка соответствующим образом». – NickFitz

12

SEO стал почти религией для некоторых людей, где они одержимы мелочами. Честно говоря, я не уверен, что все эти усилия оправданы.

Мой совет? Игнорируйте то, что говорят так называемые ученые мужики, и просто следуйте Google's guidelines.

Возможно, вы ищете академический ответ, но, честно говоря, это не академический вопрос, выходящий за рамки того, как работает веб-индексация. Реальность современного индексации страниц и алгоритма ранжирования гораздо сложнее.

Возможно, вам захочется взглянуть на один из ранних works on search engines. Обратите внимание на имена авторов. Вы также можете прочитать Google Patent application 20050071741.

Эти общие принципы в сторону, Google's search algorithm is constantly tweaked на основе фактических и нужных результатов. Точная работа - это тщательно охраняемая тайна, чтобы сделать ее более сложной для людей в игре. Большая часть «совета» или описания того, как работает алгоритм поиска Google, - это чистое предположение.

Таким образом, помимо наличия заголовка и наличия хорошо сформированного и действительного HTML, я не думаю, что вы найдете то, что ищете.

+1

OP ищет специально для академической работы по этой теме, а не только для того, как лучше получить рейтинг страницы. –

+2

-1: Хотя я согласен с мнением, этот ответ не затрагивает вопрос ОП. – Joel

+1

Спасибо за советы, но я ищу специально для академической работы по теме, как то, что сказал Крис, спасибо за ваш вклад и спасибо Крису за то, что он лучше объяснил мой вопрос – ahmed

1

Как сказал cletus, следуйте рекомендациям Google.

Я сделал несколько тестов, которые пришли к выводу, что названия, изображения alt и h являются самыми важными. Также стоит упомянуть google adsense. У меня возникло ощущение, что если вы их реализуете, ранг вашего сайта увеличивается.

+1

Как сказал Крис: «Я ищу специально для академической работы по этой теме, не обязательно просто, как стать лучше Page Rank» Спасибо за советы – ahmed

1

Я считаю, что вы заинтересованы в называют структурно-дактилоскопии, и он часто используется для определения сходства двух структур. В случае Google, применяя вес к различным тегам и применяя к секретному алгоритму, который (вероятно) использует частоты разных элементов в отпечатке пальца.Это глубоко направляется в теории информации - если вы ищете научные работы по теории информации, я хотел бы начать с "A Mathematical Theory of Communication" Клод Шенноном

2

Я нашел эту статью:

A New Study on Using HTML Structures to Improve Retrieval

однако это является старая бумага 1999,

все еще ищет более свежие документы.

+2

Вы искали бумаги со ссылкой на этот? ACM Portal перечисляет 2, и возможно, что Citeseer или Google Scholar могут знать больше. – Novelocrat

4

Google очень сознательно не дает слишком много информации об алгоритме поиска, так что вряд ли вы найдете окончательный ответ или академическую статью, подтверждающую это. Если вас интересует SEO-точка зрения, просто напишите свои страницы, чтобы они были хороши для людей, и роботы тоже понравятся.

Чтобы сделать страницу хорошо для людей, вы должны использовать тег, такие как h1, h2 и так далее, чтобы создать иерархическую страницу затраты ... немного как это ...

h1 «Обратная связь» ... h2 "Контактная информация" ...... h3 "Телефонные номера" ...... h3 "Адреса электронной почты" ... h2 "Как нас найти" ...... h3 «На автомобиле» ...... h3 «На поезде»

Сложность вопроса заключается в том, что если вы поместите что-то в свой тег h1, надеясь, что это увеличит ваше положение в Google, t ma Если у вас есть другой контент на вашей странице, вы можете выглядеть как спам. Точно так же, если ваша страница состоит из слишком большого количества заголовков и недостаточно фактического контента, вы можете выглядеть как спам. Это не так просто, как добавить тег h1 и h2, и вы встанете! Вот почему вам нужно писать сайты для людей, а не роботов.

+0

Идея блестящая, +1 за единственный правильный ответ, как говорится, «разработанный для людей, а не роботов» –

2

Вы также можете попробовать поиск в Секцию «Computer Science» в Arxiv: http://arxiv.org для «поиска двигатель "и различные термины, которые другие предложили.

Он содержит много научных статей, все свободно доступны ... надеюсь, некоторые из них будут иметь отношение к вашим исследованиям. (. Конечно, предостережение проверки содержания любой газеты применяется)

0

Я нашел, что это интересно, что - без мета ключевых слов, ни описания, представленного - в scenatio, как это:

<p>Some introduction</p> 
<h1>headline 1</h1> 
<p>text for section one</p> 

Всегда «текст для раздела один "отображается на странице результатов поиска.

1

Вкратце; очень осторожно.При продолжительном:

Цитата anatomy of a large-scale hypertextual erb search engine:

[...] Это дает нам некоторую ограниченную фразу поиски, пока есть не так много якорей для конкретного слова. Мы ожидаем обновления способа, в котором сохраняются анкерные хиты , что позволяет сделать большее разрешение в позиции и поля docIDhash. Мы используем размер шрифта по отношению к остальной части документа потому, что при поиске, вы не хотите ранжировать иначе идентичные документы по-разному только потому, что один из документов в больших шрифта. [...]

Он продолжает:

[...] Еще одна большая разница между в Интернете и традиционных хорошо контролируемых коллекций является то, что практически нет контроля над тем, что люди могут положить в сети. Пара эта гибкость, чтобы опубликовать что-либо с огромным влиянием поиска двигателей для маршрутизации трафика и компаний , которые намеренно манипулируют поиском двигатели для получения прибыли становятся серьезными проблема. Эта проблема, которая не была рассмотрена в традиционных закрытых системах поиска информации . Кроме того, интересно отметить, что усилия метаданных в значительной степени удалось с вебом-поисковыми системами, потому что любой текста на странице, которая не является непосредственно представляются пользователю, злоупотреблял манипулировать поисковые системы. [...]

The Challenges in a web search engine решает эти проблемы в более современной моде:

[...] Веб-страница в HTML попадет в середину этого континуума структуры в документах, не являясь ни близким к свободному тексту, ни хорошо структурированным данным. Вместо этого разметка HTML предоставляет ограниченную структурную информацию, обычно используемую для управления макетом, но предоставляющую ключи к семантической информации. Информация о макетах в HTML может показаться ограниченной полезностью, особенно по сравнению с информацией, содержащейся в таких языках, как XML, которые могут использоваться для маркировки контента, но на самом деле это особенно ценный источник метаданных в ненадежных корпусах, таких как Интернет. Значение в информации макета проистекает из того факта, что она видна пользователю [...]:

И добавляет:

[...] HTML-теги могут быть проанализированы для чего семантическая информация может быть выведена. В дополнение к тегам заголовка, упомянутым выше, есть теги, которые управляют шрифтом (жирным шрифтом, курсивом), размером и цветом. Они могут быть проанализированы, чтобы определить, какие слова в документе, который автор считает особенно важным.Одним из преимуществ HTML или любого языка разметки, который очень близко сопоставляется с тем, как отображается контент, является то, что есть меньше возможностей для злоупотреблений: трудно использовать разметку HTML таким образом, чтобы побудить поисковые системы думать, что выделенный текст является важным , в то время как пользователям это кажется несущественным. Например, фиксированное значение тега означает, что любой текст в контексте HI будет заметно отображаться на отображаемой веб-странице, поэтому для поисковых систем безопасно взвешивать этот текст. Однако надежность разметки HTML уменьшается за счет каскадных таблиц стилей, которые отделяют имена тегов от их представления. Было проведено исследование по извлечению информации из той структуры, которой обладает HTML. Например, [Chakrabarti etal, 2001; Chakrabarti, 2001] создал дерево DOM HTML-страницы и использовал эту информацию для повышения точности перегонки темы, метода анализа на основе ссылок.

Существует множество проблем, с которыми приходится сталкиваться современной поисковой системе, например, веб-спам и схемы blackhat SEO.

Но даже в идеальном мире, например, после устранения плохих яблок из индекса, сеть все еще является полным беспорядком, потому что никто не имеет одинаковых структур. Существуют карты, игры, видео, фотографии (flickr) и много и много пользовательского контента. Другими словами, сеть все еще очень непредсказуема.

Ресурсы
1

Чтобы сохранить его до боли просто. Сделайте свою информационную архитектуру логичной. Если наиболее важные элементы для понимания пользователя выделены заголовками и сгруппированы логически, то документ легче интерпретировать с использованием алгоритмов обработки информации. Магически это также будет проще для пользователей интерпретировать. Помните, что алгоритмы поисковой системы были написаны людьми, пытающимися интерпретировать язык.

Основной процесс: Напишите Хорошо структурированный HTM L - использование тегов заголовков для обозначения наиболее важных элементов на странице. Используйте логические теги на основе структуры вашей информации. Списки для списков, заголовки для основных тем.

Поставка Соответствующие метки alt и имена для любых визуальных элементов, а затем использовать простые css для упорядочивания этих элементов.

Если сайт хорошо работает для пользователей и содержит релевантную информацию, вы не рискуете стать черным спамерским списком, и алгоритмы поисковой системы будут способствовать вашей странице.

Мне очень понравилась книга Transcending CSS для чистого объяснения правильно структурированного HTML.

0

Новый тег использовать называется каноническим может теперь также использоваться с Google, нажмите HERE