У меня есть большое количество атрибутов (~ 110.000) и около 80 экземпляров, которые я хочу кластер. Атрибуты имеют значения distict, обычно 0 и 1. Мне хотелось бы удалить все атрибуты, которые появляются слишком часто или почти никогда, например, атрибут, значение которого равен 0/1 для 78 из 80 экземпляров или для 2 из 80 экземпляров. Есть ли способ сделать это в weka?Как обрабатывать данные для кластеризации weka
0
A
ответ
0
В вкладке «preprocess» имеется атрибут-фильтр «removeUseless».
См. Фильтры/Неподдерживаемый/Атрибут/removeUseessess. Ты это пробовал?
Из описания:
«Этот фильтр удаляет атрибуты, которые не изменяются вообще или которые изменяются слишком много.»
Это можно сделать, настроив параметр maximumvariancePercentageAllowed
. Значение по умолчанию - 99%.
У Weka есть много способов выбора атрибутов. Вы что-то устали, такие как получение информации или анализ основных компонентов? – SJB
Если я не ошибаюсь, функция Select Attributes нуждается в относительном классе, чтобы лучше всего работать с. У нас нет основного класса, на основе которого я могу сравнить атрибуты. –