Можно ли настроить Solr так, чтобы оценка подобия документа оценивалась в диапазоне от 0 (без соответствия) до 1 (полное совпадение документа и запроса).Результаты поиска Solr в диапазоне от 0 до 1
Спасибо!
Можно ли настроить Solr так, чтобы оценка подобия документа оценивалась в диапазоне от 0 (без соответствия) до 1 (полное совпадение документа и запроса).Результаты поиска Solr в диапазоне от 0 до 1
Спасибо!
Нет, tf-idf не работает, и концептуальный поиск на самом деле не работает. Как определить «полное соответствие»?
Вам это нужно для какого-то измерителя пользовательского интерфейса? Возможно, вам стоит взглянуть на сходство косинусов между документами, http://en.wikipedia.org/wiki/Cosine_similarity, где первым документом является запрос.
Должно быть возможно, вам нужно изменить функцию ранжирования люцен (solr использует lucene внутри). Вы можете заменить реализацию по умолчанию. Я не знаю, сколько времени вам нужно, чтобы он работал, но - если вам действительно нужно a boolean retrieval engine - вы можете это сделать. Вы должны начать свои исследования с this document.
Я не уверен, зачем вам нужна такая функциональность, но я полагаю, что, возможно, вы хотите использовать Solr в качестве хранилища ключей. В таком случае вам нужно изменить конфигурацию индексации - ваш analyzer не должен указывать входной текст. Если это так, текст будет помещен в индекс без изменений (тот же анализатор используется для обработки запросов). Таким образом, если вы предоставите в запросе ключ («1234» для поля «MY_KEY»), вы получите соответствующий документ для этого ключа.
Нет, я действительно не говорю о булевых запросах, но спасибо за ресурс о Lucene. Сходство & Оценка.
Ну, я имею в виду вдоль линий языка моделей для поиска информации & интересно, если кто-нибудь знает, если есть реализация для этого в Lucene/Solr
http://nlp.stanford.edu/IR-book/html/htmledition/language-models-for-information-retrieval-1.html