Solr это еще один отличный вариант, это эффективно фасад на вершине lucene, который предоставляет вам хороший API REST/url. Для работы с ним есть доступная, зрелая библиотека .Net.
http://lucene.apache.org/solr/
http://code.google.com/p/solrnet/
Из Вашего вопроса, хотя, вы ищете для фактического основного двигателя или вы ищете что-то и ползать/траверс контента наращивая индексы выбранной поисковой системы?
-
Редактирование, чтобы ответить на комментарий от оригинального плаката.
У вас есть две половинки уравнения для решения тогда.
Сначала выбираем поисковую систему, которая отвечает на ввод (ключевые слова), а затем запрашивает его индексы и возвращает то, что, по его мнению, соответствует соответствующим совпадениям. Вторая половина уравнения - это поиск механизма заполнения индекса поиска вашего выбранного движка.
Что касается двигателя, то предложил Lucene, и я предложил вариант Lucene, который обеспечивает (возможно) улучшенный интерфейс разработчика.Что касается построения вашего поискового корпуса, это немного отличается. Здесь вы можете выбрать, чтобы написать собственное программное обеспечение, которое занимает часть контента и добавляет его в индекс. Преимущество здесь в том, что у вас есть мелкий контроль над тем, что входит в поисковую систему и когда. С другой стороны, вы пишете новый код - к счастью, современные поисковые системы, такие как Lucene/Solr, делают это довольно легко.
Ваш второй вариант - использовать что-то, чтобы автоматически сканировать ваш контент и добавлять его в индекс. Проблемы здесь связаны с определением и обучением для настройки подходящего варианта. В зависимости от вашего выбора сканеров он может или не может хорошо документировать документы, сидящие на файловой системе (например, на корпоративном сайте Sharepoint).
Nutch является искателем Apache (создателем Lucene и Solr), который потенциально может быть использован, если вы решите не писать свой собственный код. http://wiki.apache.org/nutch/
Мы строим корпоративный сайт. Где любой посетитель сайта должен иметь возможность искать весь веб-контент. – user171523