Здесь X является обучающей матрицей, а test_feature является тестовым массивом. squared_euclidian = np.sum(np.square(X - test_feature), axis=1)
squared_euclidian является Squared Euclidian distance
Я пытаюсь найти лучший способ сравнить большие наборы числовых последовательностей с другими большими наборами, чтобы ранжировать их по каждому Другие. Возможно, следующий пример игрушки поясняет проб
У меня есть очень простой код, чтобы попробовать косинус Сходство: import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.linalg.distributed.{MatrixEntry, CoordinateMatrix, R
У меня есть набор данных 500 мобильных устройств, имеющих 10 атрибутов, а именно Date|Company|ModelName|Price|HardDisk|RAM|Colour|Display size|Cam1|Cam2
Образец набора данных приведен ниже: 24/10/20