2017-02-15 38 views
0

Я хочу использовать k-means для дискретизации данных временных рядов в двух значениях (0 или 1). Данные временного ряда - это время матрицы на гены (строка = время, столбец = ген). Пример:k-средство для всех данных или для каждой функции?

t\x x1 x2 x3 
1 0.122 0.324 0.723 
2 0.543 0.573 0.329 
3 0.901 0.445 0.343 
4 0.612 0.353 0.435 
5 0.192 0.233 0.023 

Мой вопрос: Должен ли я использовать к кластерами для всех данных матрицы или K кластеров для каждого столбца (так что я буду иметь K кластера для каждого столбца суммирования k.number_columns)? и мои гены являются независимыми

ответ

0

Либо может работать.

Дискретизация всех атрибутов сразу дает вам возможность предоставить только один символ за раз, т. Е. Одномерный ряд.

Но, с другой стороны, если столбцы независимы, качество может быть лучше, если вы дискретизируете их индивидуально. Обратите внимание, что для одномерных данных, если они шумны, квантиль может быть намного лучше, чем k-средство (которое чувствительно к шуму).

+0

спасибо. Я сомневался в этом. Я буду дискретировать индивидуально – realbas