У меня есть набор данных с несколькими столбцами. Многие из этих столбцов содержат более 32 факторов, поэтому, чтобы запустить случайный лес (например), я хочу заменить значения в столбце в зависимости от их частоты.Заменить значение в столбце, основанном на частоте с использованием R
Один из колонки звучит так:
$ country
: Factor w/ 92 levels "China","India","USA",..: 30 39 39 20 89 30 16 21 30 30 ...
То, что я хотел бы сделать, это только сохранить верхний N (где N представляет собой значение в диапазоне от 5 до 20) стран, а также заменить остальные значения с "Другие". Я знаю, как рассчитать частоту значений, используя функцию таблицы, но я не могу найти решение для замены значений на основе такого правила. Как это может быть сделано?
Спасибо, это было совершенным. – user2762934