2012-06-22 3 views
26

Я новичок в R. Мне нужно создать простую таблицу частот (как в книгах) с суммарной частотой и относительной частотой.Как создать частотную таблицу в R с суммарной частотой и относительной частотой

Так что я хочу, чтобы генерировать из простых данных, как

> x 
[1] 17 17 17 17 17 17 17 17 16 16 16 16 16 18 18 18 10 12 17 17 17 17 17 17 17 17 16 16 16 16 16 18 18 18 10 
[36] 12 15 19 20 22 20 19 19 19 

стол, как:

  frequency cumulative relative 
(9.99,11.7] 2   2  0.04545455 
(11.7,13.4] 2   4  0.04545455 
(13.4,15.1] 1   5  0.02272727 
(15.1,16.9] 10   15  0.22727273 
(16.9,18.6] 22   37  0.50000000 
(18.6,20.3] 6   43  0.13636364 
(20.3,22]  1   44  0.02272727 

Я знаю, что это должно быть просто, но я не знаю, как.

Я получил некоторые результаты, используя этот код:

factorx <- factor(cut(x, breaks=nclass.Sturges(x))) 
as.matrix(table(factorx)) 

ответ

24

Вы близки! Есть несколько функций, которые сделают это легким для вас, а именно cumsum() и prop.table(). Вот как я, вероятно, собирал это вместе. Я делаю некоторые случайные данные, но суть та же:

#Fake data 
x <- sample(10:20, 44, TRUE) 
#Your code 
factorx <- factor(cut(x, breaks=nclass.Sturges(x))) 
#Tabulate and turn into data.frame 
xout <- as.data.frame(table(factorx)) 
#Add cumFreq and proportions 
xout <- transform(xout, cumFreq = cumsum(Freq), relative = prop.table(Freq)) 
#----- 
     factorx Freq cumFreq relative 
1 (9.99,11.4] 11  11 0.25000000 
2 (11.4,12.9] 3  14 0.06818182 
3 (12.9,14.3] 11  25 0.25000000 
4 (14.3,15.7] 2  27 0.04545455 
5 (15.7,17.1] 6  33 0.13636364 
6 (17.1,18.6] 3  36 0.06818182 
7 (18.6,20] 8  44 0.18181818 
+1

также должен дать пробку '?? 'функция, которая допускает нечеткий поиск, т. е.' ?? 'суммарная сумма '' приведет вас в правильном направлении. – Chase

+1

Это сработало хорошо, меня сбивало с толку, что отображение данных выполняется как ** фрейм данных ** (вместо таблицы). «??» действительно хорош, но я не являюсь носителем английского языка, поэтому сложно найти помощь. – eloyesp

+0

@El_Hoy - сравните вывод 'str (as.data.frame (таблица (образец (1:10, 100, TRUE))))' и 'str (таблица (образец (1:10, 100, TRUE))) ', чтобы увидеть разницу в выходе. Форматирование в виде данных.рамка просто упрощает добавление cumsum и пропорций. Удачи! Много хорошей информации здесь, на SO, и много людей, которым нравится отвечать на вопросы. Ура! – Chase

19

Базовые функции table, cumsum и prop.table должны получить вас там:

cbind(Freq=table(x), Cumul=cumsum(table(x)), relative=prop.table(table(x))) 
    Freq Cumul relative 
10 2  2 0.04545455 
12 2  4 0.04545455 
15 1  5 0.02272727 
16 10 15 0.22727273 
17 16 31 0.36363636 
18 6 37 0.13636364 
19 4 41 0.09090909 
20 2 43 0.04545455 
22 1 44 0.02272727 

С cbind и именование столбцов по своему вкусу это должно быть довольно легко для вас в будущем. Выход из функции таблицы является матрицей, поэтому этот результат также является матрицей. Если бы это было сделано на время чем-то большим, было бы более эффективной TODO это:

tbl <- table(x) 
cbind(Freq=tbl, Cumul=cumsum(tbl), relative=prop.table(tbl)) 
12

Если вы ищете что-то предварительно упакованным, рассмотрит freq() функции из descr пакета.

library(descr) 
x = c(sample(10:20, 44, TRUE)) 
freq(x, plot = FALSE) 

Или получить кумулятивные проценты, используйте ordered() функцию

freq(ordered(x), plot = FALSE) 

Чтобы добавить столбец "кумулятивных частот":

tab = as.data.frame(freq(ordered(x), plot = FALSE)) 
CumFreq = cumsum(tab[-dim(tab)[1],]$Frequency) 
tab$CumFreq = c(CumFreq, NA) 
tab 

Если данные есть недостающие значения, действительный процент столбец добавляется в таблицу.

x = c(sample(10:20, 44, TRUE), NA, NA) 
freq(ordered(x), plot = FALSE) 
1

Еще одна возможность:

library(SciencesPo) 
    x = c(sample(10:20, 50, TRUE)) 
    freq(x) 
-1

Мое предложение проверить agricolae пакет ... проверить это:

library(agricolae) 

weight<-c(68, 53, 69.5, 55, 71, 63, 76.5, 65.5, 69, 75, 76, 57, 70.5, 
+ 71.5, 56, 81.5, 69, 59, 67.5, 61, 68, 59.5, 56.5, 73, 
+ 61, 72.5, 71.5, 59.5, 74.5, 63) 

h1<- graph.freq(weight,col="yellow",frequency=1,las=2,xlab="h1") 

print(summary(h1),row.names=FALSE)