1

Я сгруппировал некоторые данные с помощью Spark, и теперь я хочу получить оценку сходства между конкретной записью, которую меня интересуют, и другими элементами в том же кластере, в котором я записал. Существуют ли какие-либо алгоритмы или методы Spark для этого?Spark Clustering: Как получить меру подобия элементов внутри одного кластера?

Я читал о функции ColumnSimilarities() для RowMatrix, но меня не интересует сходство all-vs-all, просто очень специфическое против множества других векторов.

ответ

1

Кажется, что в Spark нет такой встроенной функциональности. Вы можете использовать ColumnSimilarities(), а затем результаты в индексах i и j соответствуют элементам i и j.

Однако это явно неэффективно, и, чтобы быть честным, это не очень хорошо.

Итак, если бы я был вами, я бы посмотрел реализацию ColumnSimilarities() и скорректировал его для подобия пары элементов; если это хорошо, вы также можете внести свой вклад в проект Apache Spark! ;)