Я собираюсь очистить некоторые данные для анализа выживаемости, и я стараюсь сделать так, чтобы у индивида был только один устойчивый переход от присутствующего симптома (ss = 1) до симптом переводится (ss = 0). Человек должен иметь полную пролонгированную ремиссию, чтобы она могла считаться ремиссией. Статистические проблемы/проблемы в сторону, мне интересно, как я могу заняться рассмотрением вопросов, описанных ниже.Очистка данных для анализа выживаемости
Я пытаюсь разбить проблему на более мелкие, более управляемые операции и объекты, однако решения, которые я продолжаю использовать, вынуждают меня использовать условное форматирование на основе строк непосредственно выше и ниже отсутствующего значения и, откровенно говоря, я немного потерял, как это сделать. Мне хотелось бы немного руководства, если вы думаете, что знаете хорошую технику, которую я могу использовать, экспериментировать, или если вы знаете какие-либо хорошие условия поиска, которые я могу использовать при поиске решения.
Подробности ниже:
#Fake dataset creation
id <- c(1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,4,4,4)
time <-c(0,1,2,3,4,5,6,0,1,2,3,4,5,6,0,1,2,3,4,5,6,0,1,2,3,4,5,6)
ss <- c(1,1,1,1,NA,0,0,1,1,0,NA,0,0,0,1,1,1,1,1,1,NA,1,1,0,NA,NA,0,0)
mydat <- data.frame(id, time, ss)
* Жирный и подчеркнутый символы представляют изменения из набора данных выше
Цель здесь состоит, чтобы найти способ, чтобы получить значения НС для ID # 1 (переменная сс), чтобы выглядеть следующим образом: 1,1,1,1, , 0,0
ID # 2 (переменные сс), чтобы выглядеть следующим образом: 1,1,0, , 0,0,0
ID # 3 (переменная ss) выглядит так: 1,1,1,1,1,1, NA (без изменений, поскольку строка с NA будет удалена в конечном счете)
ID # 4 (переменные сс), чтобы выглядеть следующим образом: 1,1, , , , 0,0 (это одна требуют многократных изменений и Я ожидаю, что это будет наиболее сложной задачей).
Является ли рабочее определение _sustained_ с точки зрения времени, а не позднее свидетельство рецидива? Будем ли мы исключать время наблюдения за случаем, чья ремиссия была выше, чем время от установленного риска? –
Выдерживается в этом случае означает, что человек якобы был свободным от симптомов (ss = 0) через последний момент времени. Отсутствующие данные, конечно, бросают ключ в шестерни, но пока что, я заинтересован в разработке кода для выполнения задачи, изложенной выше. –
Я предполагаю, что это анализ анализируемого рака с вероятным фатальным (или дорогостоящим) результатом рецидива. Я бы отбросил термин «устойчивый», поскольку «выживание» настолько смешано с временем наблюдения, а время при t = 1 рассматривается на том же основании, что и время при t = 10. Вместо этого обратитесь к выживанию без рецидива. Это уже довольно запутанная статистика, поскольку событие принципиального значения (смерть от других причин) было пересмотрено как процесс цензуры. –