Как обрабатывать данные для кластеризации weka

У меня есть большое количество атрибутов (~ 110.000) и около 80 экземпляров, которые я хочу кластер. Атрибуты имеют значения distict, обычно 0 и 1. Мне хотелось бы удалить все атрибуты, которые появляются слишком часто или почти никогда, например, атрибут, значение которого равен 0/1 для 78 из 80 экземпляров или для 2 из 80 экземпляров. Есть ли способ сделать это в weka?Как обрабатывать данные для кластеризации weka

источник

2015-12-05 Alexandros Mavronas

У Weka есть много способов выбора атрибутов. Вы что-то устали, такие как получение информации или анализ основных компонентов? – SJB

Если я не ошибаюсь, функция Select Attributes нуждается в относительном классе, чтобы лучше всего работать с. У нас нет основного класса, на основе которого я могу сравнить атрибуты. –

В вкладке «preprocess» имеется атрибут-фильтр «removeUseless».

См. Фильтры/Неподдерживаемый/Атрибут/removeUseessess. Ты это пробовал?

Из описания:

«Этот фильтр удаляет атрибуты, которые не изменяются вообще или которые изменяются слишком много.»

Это можно сделать, настроив параметр maximumvariancePercentageAllowed. Значение по умолчанию - 99%.

источник

2017-09-22 08:52:05 knb

Как обрабатывать данные для кластеризации weka

ответ

Смежные вопросы