Его, вероятно, трудно найти сравнение между Apache Lucene и Google Search Appliance, потому что они такие разные вещи. В то время как Lucene является программным компонентом для индексирования документов, имеющих базовую значимость «наращивания», GSA - это продукт корпоративного поиска (аппаратное/физическое оборудование) с множеством готовых функциональных возможностей для настройки и оптимизации результатов поиска на основе от Алгоритм поиска Google.
Таким образом, они представляют собой в основном два отличных инструментария с различными сценариями реализации. Но, конечно, перекрываются, особенно если они используются для поиска на вашем среднем веб-сайте.
Off верхней части моей головы несколько тем, вы, возможно, захотите начать с для сравнения:
Развертывание/Архитектура
- Lucene является программным компонентом, который может быть глубоко интегрированы в ваш собственное программное обеспечение, обеспечивающее индекс (обычно на основе файлов, иногда в памяти) для быстрого и быстрого индексирования и получения контента.
- Проект lucene предоставляет довольно большой список анализаторов для индексирования индексов разных языков (западные языки, арабский, азиатский и т. Д.), Но имеет место для усовершенствований с помощью анализаторов.
- Lucene для .Net - довольно популярный порт для интегрироваться в Microsoft .Net Plattforms.
- Программное обеспечение и аппаратные средства GSA объединены и проданы как устройство с интерфейсом HTTP (ы), обеспечивающим результаты поиска либо в HTML (через собственные XSLT), либо в формате XML (для лучшей интеграции на вашем сайте)
- GSA поставляется с языковые пакеты (установленные и загружаемые). Вам нужно будет выбрать один из пакетов. Если вам нужна поддержка для большего количества языков, вам может потребоваться добавить еще одну GSA в инфраструктуру (если все требуемые языки не находятся в одном комплекте)
- GSA отлично работает и требует очень небольшого обслуживания
- GSA давайте масштабируем с почти нет инженерных усилий. глобально распределенные, но соединенные GSAS можно настроить через веб-интерфейс
- GSA может быть сделана HA, купив дешевле модуль горячего резервного
Индексирования
- Lucene обеспечивает сканерам (и API обходчика) для индексации содержимого. Не имеет значения, действительно ли ваш искатель сканирует веб-сайт, например Google, или сканирует базу данных на основе операторов SQL или предоставляет текстовый поток, считываемый из плоских файлов. Но обычно вам нужно внедрить искатель, если предоставленное не соответствует вашим потребностям.
- GSA использует гусеничную технологию, используемую Google, соблюдая инструкции роботов (в тегах TXT или Meta), она предоставляет API-интерфейс для источников, которые не могут быть сканирование (т.е.не связывая между ними) и поддерживает создание запросов SQL для всех мэра БД для retrievel данных из базы данных (будь то список URL для обхода или сами данные)
Retrieval/уместность настраивая
- Lucene не стремится и не имеет хорошей поддержки для настройки релевантности (за исключением повышения позиций в индексе). Это до приложения, используя результаты индекса, чтобы сделать настройку
- Lucene является индексом, используемым ГУМЗОМ, который обеспечивает настройку и архитектуру более похожую на GSA (включая результат retrievel по HTTP (S))
- GSA давайте вы предвзятость наборов результатов на основе метаданных, шаблонов даты и URL. В последней версии вы можете даже настроить свои собственные сущности и смещать результаты, основанные на них.
- GSA поддерживает факсимильные рамки для метаданных и еще некоторые причудливые вещи на их интерфейсе, такие как изображения предварительного просмотра для документов, автозапуска и т. Д.
Коммерческие вещи
- Lucene является открытым исходным кодом (отсутствие затрат) продукта, но требует аппаратного быть приобретен
- GSA начинается примерно в $ 20k для 500k документов/URL-
- Google предлагает несколько уровней поддержки
- лицензии GSA должны быть обновляемых на 2 или 3 года основе (вы получаете новое оборудование)
- GSA не требует какого-либо дополнительного оборудования (прибор включен)
... есть еще что добавить, но я надеюсь, что вы поняли суть.
Обновление февраля 2016:
Google сообщил партнеры, что GSA будет прекращен около 2019 Лучшего сайта ссылки на на данный момент, кажется, http://fortune.com/2016/02/04/google-ends-search-appliance/.
Было бы лучше сравнить GSA с Elastic Search (https://www.elastic.co) или Solr (http://lucene.apache.org/solr/). Оба они лучше подходят для разработки поисковой системы, и оба они основаны на Lucene. – YYamil