2014-01-06 1 views
0

Пытается использовать морковь2 для выполнения кластеризации. У меня есть несколько вопросов по этому поводу.solr кластеризация на основе солр-полей, включая геопространственные поля поля

a) Можем ли мы сгруппировать документы в Solr/Lucene на основе конкретных полей в solr? например, группировать их на основе имени, имени человека и географической дистанции (lat, long) с конкретными весами полей?

b) Мой прецедент для кластеризации на самом деле не является онлайн, это скорее пакетный случай, учитывая, что у нас все еще есть это ограничение 1K max no. результатов?

ответ

0

Carrot2 выполняет кластеризацию, основанную только на естественном тексте ваших документов. Имена лиц, вероятно, слишком коротки для значимой кластеризации; Carrot2 не подходит для геоданных и других числовых данных.

1k ограничение/рекомендация основана на цели дизайна Carrot2: скопировать небольшие коллекции текстов (например, результаты поиска) достаточно быстро, чтобы процесс можно было выполнить в режиме онлайн. Carrot2 отлично подходит для коллекций около 1 тыс. Документов, но не будет масштабироваться очень далеко от нескольких тысяч документов.

+0

Спасибо. в Solr я могу выполнить запрос solr и получить оценку, которая состоит из нескольких полей, весов и расстояния геометрии. Если мы сможем использовать этот показатель как меру расстояния до кластера, это будет хорошо. Если сейчас нет выбора, это в видении моркови? – Ganesh

+0

Также вы можете сообщить мне, что такое «естественный текст»? Я считаю, что это любое поле в solr (одно или комбинированное/копирование полей). – Ganesh

+0

Carrot2 был разработан специально для кластеризации естественного текста, такого как содержание веб-страниц, новостные статьи, научные статьи и т. Д. Он не использует классические алгоритмы кластеризации, которые полагаются на дистанционные меры, поэтому он не будет работать для числовых данных. Мы не планируем добавлять числовые кластеры к Carrot2, потому что есть много других проектов с открытым исходным кодом, которые делают это очень хорошо. –