Уровни фактора падения в подмножестве данных

406

У меня есть кадр данных, содержащий множитель. Когда я создаю подмножество этого фрейма данных, используя subset() или другую функцию индексирования, создается новый кадр данных. Однако фактор-переменная сохраняет все свои исходные уровни - даже если они не существуют в новом фрейме данных.Уровни фактора падения в подмножестве данных

Это создает головные боли при графовом построении или использовании функций, которые полагаются на уровни факторов.

Что является самым кратким способом удаления уровней из фактора в моем новом фрейме данных?

Вот мой пример:

df <- data.frame(letters=letters[1:5], 
        numbers=seq(1:5)) 

levels(df$letters) 
## [1] "a" "b" "c" "d" "e" 

subdf <- subset(df, numbers <= 3) 
## letters numbers 
## 1  a  1 
## 2  b  2 
## 3  c  3  

## but the levels are still there! 
levels(subdf$letters) 
## [1] "a" "b" "c" "d" "e"

источник

2009-07-28 medriscoll

310

Все, что вы должны сделать, это применить коэффициент() в переменную снова после Подменю:

> subdf$letters 
[1] a b c 
Levels: a b c d e 
subdf$letters <- factor(subdf$letters) 
> subdf$letters 
[1] a b c 
Levels: a b c

EDIT

На примере фактор страницы:

factor(ff)  # drops the levels that do not occur

Для сброса уровней из всех столбцов факторов в фрейме данных вы можете использовать:

subdf <- subset(df, numbers <= 3) 
subdf[] <- lapply(subdf, function(x) if(is.factor(x)) factor(x) else x)

источник

2009-07-28 22:41:31 hatmatrix

+17

Это нормально для одноразового использования, но в data.frame с большим количеством столбцов вы можете сделать это на каждом столбце, который является фактором ..., что приводит к необходимости в такой функции, как drop.levels () из gdata. –

Я вижу ... но с точки зрения пользователя быстро написать что-то вроде subdf [] <- lapply (subdf, function (x) if (is.factor (x)) factor (x) else x) ... Является ли drop.levels() намного эффективнее вычислительно или лучше с большими наборами данных? (Мне нужно было бы переписать строку выше в for-loop для огромного фрейма данных, я полагаю.) – hatmatrix

Спасибо Стивен и Дирк. Я даю этому один большой палец для подсказок одного фактора, но, надеюсь, люди будут прочитайте эти комментарии для своих предложений по очистке всего кадра данных факторов. – medriscoll

Это известная проблема, и один из возможного средства обеспечивается drop.levels() в gdata пакете, где ваш пример становится

> drop.levels(subdf) 
    letters numbers 
1  a  1 
2  b  2 
3  c  3 
> levels(drop.levels(subdf)$letters) 
[1] "a" "b" "c"

Существует также функция dropUnusedLevels в пакете Hmisc. Однако он работает только при изменении оператора подмножества [ и здесь не применим.

Как следствие, прямой подход на основе каждого столбца представляет собой простой as.factor(as.character(data)):

> levels(subdf$letters) 
[1] "a" "b" "c" "d" "e" 
> subdf$letters <- as.factor(as.character(subdf$letters)) 
> levels(subdf$letters) 
[1] "a" "b" "c"

источник

2009-07-28 18:37:13

Параметр 'reorder' параметр' drop.levels' функции стоит упомянуть: если у вас есть, чтобы сохранить первоначальный порядок ваших факторов , используйте его с значением FALSE. – daroczig

Это неприятно. Это, как я обычно это, чтобы избежать загрузки других пакетов:

levels(subdf$letters)<-c("a","b","c",NA,NA)

который получает вас:

> subdf$letters 
[1] a b c 
Levels: a b c

Обратите внимание, что новые уровни заменит все, что занимает их индекс в старых уровнях (subdf $ буквы), так что-то вроде:

levels(subdf$letters)<-c(NA,"a","c",NA,"b")

не будет работать.

Это, очевидно, не идеально, когда у вас много уровней, но для некоторых это быстро и просто.

источник

2009-07-28 18:44:32

Если вы не хотите этого поведения, не используйте факторы, используйте вместо него векторы символов. Я думаю, что это имеет больше смысла, чем исправление. Попробуйте следующее: перед загрузкой данных с read.table или read.csv:

options(stringsAsFactors = FALSE)

Недостаток заключается в том, что вы ограничены алфавитного порядка.(Перезаказ является вашим другом для участков)

источник

2009-07-28 23:53:43 hadley

Вы также можете прочитать read.csv (file = 'foo.csv', as.is = T). – andrewj

Вот еще один способ, который я считаю, равносильно factor(..) подхода:

> df <- data.frame(let=letters[1:5], num=1:5) 
> subdf <- df[df$num <= 3, ] 

> subdf$let <- subdf$let[ , drop=TRUE] 

> levels(subdf$let) 
[1] "a" "b" "c"

источник

2009-07-29 03:40:37 ars

я писал вспомогательные функции, чтобы сделать это. Теперь, когда я знаю о drop.levels gdata, он выглядит довольно похожим. Вот они (от here):

present_levels <- function(x) intersect(levels(x), x) 

trim_levels <- function(...) UseMethod("trim_levels") 

trim_levels.factor <- function(x) factor(x, levels=present_levels(x)) 

trim_levels.data.frame <- function(x) { 
    for (n in names(x)) 
    if (is.factor(x[,n])) 
     x[,n] = trim_levels(x[,n]) 
    x 
}

источник

2009-09-01 20:37:36

441

С R версии 2.12, есть droplevels() функция.

levels(droplevels(subdf$letters))

источник

2010-11-26 11:37:26

В качестве альтернативы, вы можете просто немного прокрутить вниз ... –

@ RomanLuštrik К сожалению, сортировка по голосам по-прежнему принимает принятый ответ №1, хотя он (сейчас) имеет меньше голосов, чем ваш :-( – tim

Преимущество этого метода использование 'factor()' заключается в том, что нет необходимости изменять исходный фреймворк или создавать новый постоянный фрейм. Я могу обернуть «капли» вокруг подмножества данных и использовать его в качестве аргумента данных для функции решетки, а группы будут обрабатываться правильно. – Mars

вот способ сделать это

varFactor <- factor(letters[1:15]) 
varFactor <- varFactor[1:5] 
varFactor <- varFactor[drop=T]

источник

2014-01-31 03:25:56 Diogo

Очень интересная нить, мне особенно понравилась идея просто фактор Subselection снова. Раньше у меня была аналогичная проблема, и я просто обратился к персонажу, а затем вернулся к фактору.

df <- data.frame(letters=letters[1:5],numbers=seq(1:5)) 
    levels(df$letters) 
    ## [1] "a" "b" "c" "d" "e" 
    subdf <- df[df$numbers <= 3] 
    subdf$letters<-factor(as.character(subdf$letters))

источник

2015-05-25 12:08:08 DfAC

Другой способ сделать то же самое, но с dplyr

library(dplyr) 
subdf <- df %>% filter(numbers <= 3) %>% droplevels() 
str(subdf)

Edit:

Также работает! Благодаря agenis

subdf <- df %>% filter(numbers <= 3) %>% droplevels 
levels(subdf$letters)

источник

2015-07-15 11:14:54 Prradep

вам даже не нужны скобки после пучков – agenis

Глядя на droplevels методы code in the R source you can see она обтекает factor функции. Это означает, что вы можете в основном воссоздать столбец с помощью функции factor.
Ниже таблицы данных.table для снижения уровней из всех столбцов факторов.

library(data.table) 
dt = data.table(letters=factor(letters[1:5]), numbers=seq(1:5)) 
levels(dt$letters) 
#[1] "a" "b" "c" "d" "e" 
subdt = dt[numbers <= 3] 
levels(subdt$letters) 
#[1] "a" "b" "c" "d" "e" 

upd.cols = sapply(subdt, is.factor) 
subdt[, names(subdt)[upd.cols] := lapply(.SD, factor), .SDcols = upd.cols] 
levels(subdt$letters) 
#[1] "a" "b" "c"

источник

2015-12-09 14:56:58 jangorecki

Я думаю, что способ 'data.table' был бы похож на' для (j в именах (DT) [sapply (DT, is.factor)]) set (DT, j = j, value = factor (DT [[j] ])) ' –

@DavidArenburg здесь не меняется, поскольку мы называем '.data.table' только один раз – jangorecki

Для полноты картины, теперь есть и в forcats пакете http://forcats.tidyverse.org/reference/fct_drop.htmlfct_drop.

Он отличается от droplevels в том, как он имеет дело с NA:

f <- factor(c("a", "b", NA), exclude = NULL) 

droplevels(f) 
# [1] a b <NA> 
# Levels: a b <NA> 

forcats::fct_drop(f) 
# [1] a b <NA> 
# Levels: a b

источник

2017-06-12 09:44:29

Уровни фактора падения в подмножестве данных

ответ

Смежные вопросы