Моей проблемы:Как сделать меньшие подмножества, основанных на фиксированном количество строк повторяющихся по dataframe
У меня есть dataframe, состоящий из 86016000 рядов наблюдений:
- существует
512000
наблюдения для каждый час - есть 24 часа данные в течение семи дней
- Так
24*7*512000 = 86016000
- т здесь находятся 40 столбцов (переменные)
- Нет колонки с датой или точкой отсчета
- Только номера строк достаточно хороши, чтобы определить, сколько обс. на каждый день, и нет ошибок при записи этих данных.
Учитывая такой большой набор данных, что я хочу сделать, это создать подмножества 12288000
(т.е. 24 * 512000
) строк, так что мы имеем 7 каждый день подмножества.
Что я пробовал:
d <- split(PltB_Fold3_1_Data, rep(1:12288000, each=7))
Но, к сожалению, после того, как почти полчаса, я termicated процесс, поскольку не было никакого результата.
Есть ли лучшее решение, чем выше?
С таким большим количеством данных я бы не захотел сделать еще одну копию всего нарезанного. Я, вероятно, просто работаю с подмножеством интересов, используя 'df [1: 12288000,]' – cory
Спасибо @cory. Только проблема в вашем предложении заключается в том, что я не могу повторить и получить 7 подмножеств, то есть subset1 = от 1 до 12288000 строк, подмножество2 = от 12288001 до 24576000 строк и т. Д. –