2013-05-20 2 views
1

Я использую инструмент WEKA для кластеризации анализа данных, однако в некоторых из моих атрибутов в домене есть много значений. В частности, мне нужно представить некоторую информацию о белках, и информация, которую мне нужно включить, - это термины, связанные с их функциями.Как я могу иметь дело с несколькими значениями в каком-либо атрибуте?

Например, эти значения включают в тот же атрибут «Function»:

«РНК-связывающий белок», «РНК bindingstructural составляющей ribosomerRNA связывания», «перевод», «intracellularribosomeribonucleoprotein комплекс».

И эти термины разнообразны.

Может кто-нибудь мне помочь?

ответ

1

Общим подходом является разделение категориальных переменных на n различных категорий на n двоичные переменные-пустышки.

Например:

gender = {male, female} можно переписать с 2-мя фиктивными переменными как:

  1. male = [0, 1]
  2. female = [1, 0]

В вашем случае, это, кажется, функция может содержать несколько отдельных (например, 1 белок с несколькими функциями). Это легко формовать и в фиктивные переменные.