Вкратце; очень осторожно.При продолжительном:
Цитата anatomy of a large-scale hypertextual erb search engine:
[...] Это дает нам некоторую ограниченную фразу поиски, пока есть не так много якорей для конкретного слова. Мы ожидаем обновления способа, в котором сохраняются анкерные хиты , что позволяет сделать большее разрешение в позиции и поля docIDhash. Мы используем размер шрифта по отношению к остальной части документа потому, что при поиске, вы не хотите ранжировать иначе идентичные документы по-разному только потому, что один из документов в больших шрифта. [...]
Он продолжает:
[...] Еще одна большая разница между в Интернете и традиционных хорошо контролируемых коллекций является то, что практически нет контроля над тем, что люди могут положить в сети. Пара эта гибкость, чтобы опубликовать что-либо с огромным влиянием поиска двигателей для маршрутизации трафика и компаний , которые намеренно манипулируют поиском двигатели для получения прибыли становятся серьезными проблема. Эта проблема, которая не была рассмотрена в традиционных закрытых системах поиска информации . Кроме того, интересно отметить, что усилия метаданных в значительной степени удалось с вебом-поисковыми системами, потому что любой текста на странице, которая не является непосредственно представляются пользователю, злоупотреблял манипулировать поисковые системы. [...]
The Challenges in a web search engine решает эти проблемы в более современной моде:
[...] Веб-страница в HTML попадет в середину этого континуума структуры в документах, не являясь ни близким к свободному тексту, ни хорошо структурированным данным. Вместо этого разметка HTML предоставляет ограниченную структурную информацию, обычно используемую для управления макетом, но предоставляющую ключи к семантической информации. Информация о макетах в HTML может показаться ограниченной полезностью, особенно по сравнению с информацией, содержащейся в таких языках, как XML, которые могут использоваться для маркировки контента, но на самом деле это особенно ценный источник метаданных в ненадежных корпусах, таких как Интернет. Значение в информации макета проистекает из того факта, что она видна пользователю [...]:
И добавляет:
[...] HTML-теги могут быть проанализированы для чего семантическая информация может быть выведена. В дополнение к тегам заголовка, упомянутым выше, есть теги, которые управляют шрифтом (жирным шрифтом, курсивом), размером и цветом. Они могут быть проанализированы, чтобы определить, какие слова в документе, который автор считает особенно важным.Одним из преимуществ HTML или любого языка разметки, который очень близко сопоставляется с тем, как отображается контент, является то, что есть меньше возможностей для злоупотреблений: трудно использовать разметку HTML таким образом, чтобы побудить поисковые системы думать, что выделенный текст является важным , в то время как пользователям это кажется несущественным. Например, фиксированное значение тега означает, что любой текст в контексте HI будет заметно отображаться на отображаемой веб-странице, поэтому для поисковых систем безопасно взвешивать этот текст. Однако надежность разметки HTML уменьшается за счет каскадных таблиц стилей, которые отделяют имена тегов от их представления. Было проведено исследование по извлечению информации из той структуры, которой обладает HTML. Например, [Chakrabarti etal, 2001; Chakrabarti, 2001] создал дерево DOM HTML-страницы и использовал эту информацию для повышения точности перегонки темы, метода анализа на основе ссылок.
Существует множество проблем, с которыми приходится сталкиваться современной поисковой системе, например, веб-спам и схемы blackhat SEO.
Но даже в идеальном мире, например, после устранения плохих яблок из индекса, сеть все еще является полным беспорядком, потому что никто не имеет одинаковых структур. Существуют карты, игры, видео, фотографии (flickr) и много и много пользовательского контента. Другими словами, сеть все еще очень непредсказуема.
Ресурсы
Я предполагаю, что это в основном разбирает страницу HTML, чтобы прочитать содержание. В Perl-http://search.cpan.org/dist/HTML-Parser/ –