0

Я пытаюсь вычислить сходство между n сущностями, которые описываются entity_id, type_of_order, total_value.Вычислить сходство между n объектами

Пример данных может выглядеть следующим образом:

NR entity_id type_of_order total_value 
1 1   A   10 
2 1   B   90 
3 1   C   70 
4 2   B   20 
5 2   C   40 
6 3   A   10 
7 3   B   50 
8 3   C   20 
9 4   B   50 
10 4   C   80 

Моим вопрос был бы то, что является бог способом измерения подобия между ENTITY_ID 1 и 2, например, в отношении к type_of_order и total_value для этого тип заказа.

Может ли простой KNN дать удовлетворительные результаты или я должен рассмотреть другие алгоритмы?

Любое предложение было бы высоко оценено.

+0

Какая дистанционная функция лучше всего использовать, действительно зависит от приложения. Попробуйте несколько и посмотрите, что дает наилучшие результаты. Обычные включают нормы L1 и L2. Сначала вам нужно было бы сопоставить тип_о_опс. KNN - это схема классификации, а не метрика, поэтому я не знаю, как это будет использоваться для этого. Или, может быть, я неправильно понимаю вопрос. – Lidae

ответ

0

Метрика подобия является эвристикой, чтобы фиксировать взаимосвязь между двумя строками данных относительно семантики данных и целью обучения. Мы не знаем ваших данных; мы не знаем вашего использования. Было бы безответственно предлагать метрики для решения проблемы, когда мы понятия не имеем, какую проблему мы решаем.

Вы должны ответить на этот вопрос человеку, которого вы находите в зеркале. Вы дали нам три функции, не представляя, что они означают или как они соотносятся. Вам нужно дать количественную оценку ...

  1. относительные расстояния в пределах функций: под type_of_order, что соотношение (расстояние) между любыми двумя измерениями? Если мы произвольно назначим d (A, B) = 1, то что такое d (B, C)? У нас нет информации, которая поможет вам построить это. Кроме того, если мы укажем, что какое-то значение c, то что такое d (A, C)? В разных популярных показателях это может быть 1 + c, | 1-c |, все расстояния могут быть 1, или, возможно, это что-то еще - даже более 1 + c в некоторых приложениях.

    Даже в последней колонке мы не можем предположить, что d (10, 20) = d (40, 50); фактическая разница может быть отношением, разностью квадратов и т. д. Опять же, это зависит от семантики этих ярлыков.

  2. относительные веса между признаками: Как различия в разных колонках объединяются, чтобы обеспечить сходство? Например, как d ([A, 10], [B, 20]) сравнивается с d ([A, 10], [C, 30])? Это две буквы в левом столбце, два шага по 10 в правой колонке. Как насчет d ([A, 10], [A, 20]) vs d ([A, 10], [B, 10])? Являются ли расстояния линейными или изменяются отношения, когда мы выдвигаем алфавит или более высокие числа?