У меня есть dataframe следующим образом:Группа по оглавлению терминов в колонке с dplyr
Symptom number
Abdominal pain\n Swallowing probs\n Back issues\n 22
Abdominal pain\n 12
Back issues \n Vomiting \n 14
Back issues\n 5
Существует всегда \n
в конце каждого симптома фразы. Сама фраза симптомов может быть буквально любой, поэтому я не хочу искать эти термины конкретно, но скорее любой термин до (или между) \n
Я хотел бы усреднить number
для каждого симптома, чтобы я в конечном итоге с:
Symptom Avg
Abdominal pain 17
Swallowing probs 22
Back issues 20.5
Vomiting 14
Я не знаю, как сгруппировать по отдельным терминам с dplyr. Я пробовал
SypmAvg<- df %>% group_by(grepl("(?\\n.*\\n)|($.*?\\n)",df$Symptom)%>% summarise(mean=mean(number)
но он просто сбивает мой компьютер, поэтому я даже не вижу ошибки. Может ли кто-нибудь помочь? Это просто проблема с регулярным выражением или есть лучший способ сделать это?
Спасибо. Возможно ли, что Avg выполняется только для второй половины раскола. Мои цифры, похоже, не складываются –
Aha. Я думаю, что это из-за НС. Наверное, мне просто нужно положить na.rm = T –