2012-02-15 7 views
2

В моей программе используется кластеризация K-набора заданного количества кластеров от пользователя. Для этого k = 4, но я хотел бы запустить кластерную информацию через классификатор наименьших байтов Matlabs впоследствии.MATLAB - Выход классификации

Есть ли способ разделить кластеры и подавать их в разные наивные классификаторы в Matlab?

Наивный байесовский:

class = classify(test,training, target_class, 'diaglinear'); 

K-средства:

%% generate sample data 
K = 4; 
numObservarations = 5000; 
dimensions = 42; 
%% cluster 
opts = statset('MaxIter', 500, 'Display', 'iter'); 
[clustIDX, clusters, interClustSum, Dist] = kmeans(data, K, 'options',opts, ... 
'distance','sqEuclidean', 'EmptyAction','singleton', 'replicates',3); 
%% plot data+clusters 
figure, hold on 
scatter3(data(:,1),data(:,2),data(:,3), 5, clustIDX, 'filled') 
scatter3(clusters(:,1),clusters(:,2),clusters(:,3), 100, (1:K)', 'filled') 
hold off, xlabel('x'), ylabel('y'), zlabel('z') 
%% plot clusters quality 
figure 
[silh,h] = silhouette(data, clustIDX); 
avrgScore = mean(silh); 
%% Assign data to clusters 
% calculate distance (squared) of all instances to each cluster centroid 
D = zeros(numObservarations, K);  % init distances 
for k=1:K 
%d = sum((x-y).^2).^0.5 
D(:,k) = sum(((data - repmat(clusters(k,:),numObservarations,1)).^2), 2); 
end 
% find for all instances the cluster closet to it 
[minDists, clusterIndices] = min(D, [], 2); 
% compare it with what you expect it to be 
sum(clusterIndices == clustIDX) 

что-то вроде outputing K кластеров в формате k1, k2, k3 то с наивным классификатор выбрать те вверх, вместо теста было бы k1, k2 .. и т.д.

class = classify(k1,training, target_class, 'diaglinear'); 

Но я просто не знаю, как отправить выход из K кластеров в м atlab для какого-то формата? (Действительно новым для этой программы)

EDIT

training = [1;0;-1;-2;4;0]; % this is the sample data. 
target_class = ['posi';'zero';'negi';'negi';'posi';'zero'];% This should have the same number of rows as training data. The elements and the class on the same row should correspond. 
% target_class are the different target classes for the training data; here 'positive' and 'negetive' are the two classes for the given training data 

% Training and Testing the classifier (between positive and negative) 
test = 10*randn(10,1) % this is for testing. I am generating random numbers. 
class = classify(test,training, target_class, 'diaglinear') % This command classifies the test data depening on the given training data using a Naive Bayes classifier 

% diaglinear is for naive bayes classifier; there is also diagquadratic 

ответ

1

Попробуйте это:

% create 100 random points (this is the training data) 
X = rand(100,3); 

% cluster into 5 clusters 
K = 5; 
[IDX, C] = kmeans(X, K); 

% now let us say you have new data and you want 
% to classify it based on the training: 
SAMPLE = rand(10,3); 
CLASS = classify(SAMPLE,X,IDX); 

И если вы просто хотите, чтобы отфильтровать один из кластеров из данных, которые вы можете сделать что-то вроде этого:

K1 = X(IDX==1) 

Надеюсь, что было полезно ..

+0

Zenpoy благодарит кучу! Однако, как вы используете SAMLE в качестве тестовых данных, вы бы не использовали K1? Или я запутался в тестах, тренингах, target_class? Я думал, что target_class будет ярлыками для каждой классифицированной строки, обучение будет конкретными данными, чтобы узнать, как распознать, а тестовые данные будут первыми примерами данных для verfiy, если они могут классифицировать то, что вы ищете? (т. е. один из кластеров для моей конкретной проблемы) –

+0

Я не уверен, но я думаю, вы что-то смутили. Согласно документации 'help classify': CLASS = classify (SAMPLE, TRAINING, GROUP) классифицирует каждую строку данных в SAMPLE в одну из групп в программе TRAINING. ОБРАЗЕЦ И ОБУЧЕНИЕ должны быть матрицами с одинаковым количеством столбцов. GROUP - это переменная группировки для ТРЕНИРОВКИ. Его уникальные значения определяют группы, и каждый элемент определяет, к какой группе принадлежит соответствующая строка TRAINING. GROUP может быть категориальной переменной, числовым вектором, строковым массивом или массивом ячеек строк. – zenpoy

+0

Ах, подождите несколько вариантов да, вы можете их сгруппировать, но вы также можете их классифицировать отдельно. См. Мой выше код редактирования. Обратите внимание: я тренирую их с данными обучения и использую целевой класс для их классификации. Затем я «тестирую» классификатор со случайными числами. Выход - класс с классифицированными положительными и отрицательными числами. В моем примере я просто использовал бы один из моих кластеров в качестве тестового механизма. –