2015-12-09 5 views
-2

У меня есть набор данных 500 мобильных устройств, имеющих 10 атрибутов, а именноНайти аналогичные элементы в наборе данных

Date|Company|ModelName|Price|HardDisk|RAM|Colour|Display size|Cam1|Cam2 

Образец набора данных приведен ниже:

24/10/2015 | walmart | Samsung Galaxy Note 4 N910H 32GB Unlocked GSM OctaCore Cell Phone-N910H 32GB GOLD | 599.99 | 32 | N/A | cell gold    | N/A | 10.2 | 16 
25/10/2015 | walmart | Samsung Galaxy Note 5 SM-N920i Gold International Model Unlocked GSM Mobile Phone | 717.95 | 32 | N/A | gold | N/A | 5.7 | 16 
26/10/2015 | amazon | T-Mobile AllShare Cast Wireless Hub | 65.15 | N/A | N/A | streaming | N/A | N/A | N/A 

Я должен найти наиболее схожих или уникальных устройств или удалять повторяющиеся мобильные устройства из набора данных, принимая во внимание различные атрибуты мобильных устройств.

Я изучил многие алгоритмы подобия, такие как сходство с Jaccard, сходство с косинусом. Levenshtein Distance, но они, похоже, работают с атрибутами с одним и тем же типом данных.

Просьба предложить алгоритм или подход, который мог бы работать с этим типом набора данных смешанного типа данных с учетом почти всех атрибутов.

ответ

1

Вы можете вычислить хэш-код каждой строки.

Затем используйте разницу хеш-кодов в качестве меры сходства.

Очевидно, что это зависит от всех атрибутов.

Это очень подходит для поиска дубликатов!

Это может быть плохой для вашего приложения - но вы не указали, что подходит для вашего приложения.