Пытается использовать морковь2 для выполнения кластеризации. У меня есть несколько вопросов по этому поводу.solr кластеризация на основе солр-полей, включая геопространственные поля поля
a) Можем ли мы сгруппировать документы в Solr/Lucene на основе конкретных полей в solr? например, группировать их на основе имени, имени человека и географической дистанции (lat, long) с конкретными весами полей?
b) Мой прецедент для кластеризации на самом деле не является онлайн, это скорее пакетный случай, учитывая, что у нас все еще есть это ограничение 1K max no. результатов?
Спасибо. в Solr я могу выполнить запрос solr и получить оценку, которая состоит из нескольких полей, весов и расстояния геометрии. Если мы сможем использовать этот показатель как меру расстояния до кластера, это будет хорошо. Если сейчас нет выбора, это в видении моркови? – Ganesh
Также вы можете сообщить мне, что такое «естественный текст»? Я считаю, что это любое поле в solr (одно или комбинированное/копирование полей). – Ganesh
Carrot2 был разработан специально для кластеризации естественного текста, такого как содержание веб-страниц, новостные статьи, научные статьи и т. Д. Он не использует классические алгоритмы кластеризации, которые полагаются на дистанционные меры, поэтому он не будет работать для числовых данных. Мы не планируем добавлять числовые кластеры к Carrot2, потому что есть много других проектов с открытым исходным кодом, которые делают это очень хорошо. –