2016-05-30 2 views
-1

Я делаю упражнения Введение в Data Mining, и застрял в следующем вопросе:Какова связь между расстоянием Хэмминга и Простым Согласованным Коэффициентом?

Какой подход, Jaccard или расстояние Хэмминга, больше похож на Simple Matching коэффициента, и какой подход больше похож до косинусная мера? Объясните. (Примечание: Мера Хэмминга расстояние, в то время как остальные три меры сходства, но не позволяйте этому смутить вас.)

Я думаю, что расстояние Хэмминга похож на SMC, так как из них посмотрите на весь набор данных и сравните точки данных, похожие или несходные. Но решение этой книги выглядит так:

Расстояние Хэмминга похоже на SMC. Фактически SMC = Хэмминг расстояние/количество бит.

Решение приняло ошибку? Я думаю, расстояние Хемминга и SMC не равны друг другу, и расстояние Хэмминга плюс SMC равно 1.

ответ

2

Хэмминга/длина = 1 - SMC

является очень прочные отношения. Из-за этого они являются эквивалентом в своих возможностях.

Вы утверждаете, что «просмотр всего набора данных» неверен, каждый из них определяется на пару объектов?

Целью этого упражнения является практика ваших основных математических навыков и преобразование уравнений друг в друга. Это навык, вам нужно будет часто:

  1. вам не нужно исследовать эквивалентные функции, один достаточно
  2. эквивалентных функций, одна может быть более эффективным, чтобы вычислить, чем другой
  3. эквивалентных функций , то может быть более точным, чем другое из-за математики с плавающей запятой.
+0

Спасибо вам за разъяснение! Это так полезно для меня! – Nia