2016-03-02 2 views
0

У меня есть набор данных (файл CSV), чтобы найти частые элементы с использованием алгоритма Apriori.Как найти частые элементы, независимо от имени атрибута?

col1, col2, col3 
bread, butter,? 
coke, bread, butter 

Я использую WEKA для этой цели. Ouput в следующем формате:

... 
Large Itemsets L(2): 
col1=bread col2= butter 1 
col1=coke col2= bread 1 
col1=coke col3= butter 1 
col2= bread col3= butter 1 
... 

Но выход, что я хочу это:

bread, butter 2 

В основном, выше выход не зависит от col, что они принадлежат. Как я могу добиться такого вывода?

ответ

0

Отформатируйте свои данные по-разному.

Weka ожидает, что столбцы будут теми же продуктами, а значение будет t/f (для true, false). Затем вы получаете набор предметов из молока = t -> butter = t.

См. Примеры .arff, включенные в Weka.

Я думаю, что я видел пример ELKI, используя ваш формат ввода.