Я собираюсь очистить некоторые данные для анализа выживаемости, и я стараюсь сделать так, чтобы отсутствующие данные вменялись в зависимости от окружающих значений в пределах данный предмет. Я хотел бы использовать среднее значение ближайших предыдущих и ближайших последующих значений для участника. Если последующего значения нет, то я хотел бы использовать предыдущее значение, перенесенное вперед, до тех пор, пока не появится следующее значение.Очистка данных для анализа выживаемости с использованием собственных данных участника для поддающихся значению
Я пытаюсь разбить проблему на более мелкие, более управляемые операции и объекты, однако решения, которые я продолжаю прибегать, вынуждают меня использовать условное форматирование на основе строк непосредственно выше и ниже отсутствующего значения и, откровенно говоря, я немного потерял, как это сделать. Мне хотелось бы немного руководства, если вы думаете, что знаете хорошую технику, которую я могу использовать, экспериментировать, или если вы знаете какие-либо хорошие условия поиска, которые я могу использовать при поиске решения.
Подробности ниже:
#Fake dataset creation
id <- c(1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,4,4,4)
time <-c(0,1,2,3,4,5,6,0,1,2,3,4,5,6,0,1,2,3,4,5,6,0,1,2,3,4,5,6)
ss <- c(2,2,4,3,NA,0,0,1,4,0,NA,0,0,0,4,2,1,3,3,2,NA,3,4,3,NA,NA,0,0)
mydat <- data.frame(id, time, ss)
* Жирный и подчеркнутый символы представляют изменения из набора данных выше
Цель здесь состоит, чтобы найти способ, чтобы получить значения НС для ID # 1 (переменная сс), чтобы выглядеть следующим образом: 2,2,4,3, 1.5, 0,0
ID # 2 (переменная SS), чтобы выглядеть следующим образом: 1,4,0, , 0,0,0
ID # 3 (переменная ss), чтобы выглядеть следующим образом: 4,2,1,3,3,2, NA (без изменений, поскольку строка с NA будет удалена в конце концов)
ID # 4 (переменные сс), чтобы выглядеть следующим образом: 3,4,3, , 1,5, 0,0 (это одна требует несколько изменений, и я ожидаю, что это наиболее сложной задачей).
Вы, наверное, знаете, что в целом это лучшая практика, чтобы показать свои попытки для реализации алгоритма. В противном случае это может показаться неправильным использованием сообщества в качестве службы кодирования, что не так уж и круто. – lukeA
Спасибо за головы. Я этого не понимал. Я обязательно сделаю это в следующий раз. –
Последующие читатели этого Q & A должны понимать, что предлагаемый процесс «вменения» приведет к аннулированию статистических выводов из данных, поскольку ковариаты будут иметь меньшую изменчивость, чем реальность. Никакого шума не было, поэтому это не похоже на обычные методы статистического вменения. –