У меня есть кадр данных в формате:удалить соседние дубликаты в г
site_domain <- c('ebay.com','facebook.com','facebook.com','ebay.com','ebay.com','auto.com','ebay.com','facebook.com','auto.com','ebay.com','facebook.com','facebook.com','ebay.com','facebook.com','auto.com','auto.com')
id <- c(1, 1, 1,2,2,3,3,3,3,4,4,4,5,5,5,5)
file0 <- as.data.frame(cbind(site_domain,id))
Я сделал группу, на «ID», чтобы получить данные:
library(dplyr)
xx <- as.data.frame(file0 %>%
group_by(id) %>%
summarise(pages=paste(site_domain, collapse='_')))
Данные выглядит следующим образом:
1 ebay.com_facebook.com_facebook.com
2 ebay.com_ebay.com
3 auto.com_ebay.com_facebook.com_auto.com
4 ebay.com_facebook.com_facebook.com
5 ebay.com_facebook.com_auto.com_auto.com
Однако я хочу, чтобы удалить соседние дубликаты, поэтому я хочу из положить, как:
1 ebay.com_facebook.com
2 ebay.com
3 auto.com_ebay.com_facebook.com_auto.com
4 ebay.com_facebook.com
5 ebay.com_facebook.com_auto.com
Как я могу достичь этого.
это выглядит хорошо, однако я вижу в третьей строке: вывод должен быть 'auto.com_ebay.com_facebook.com_auto.com', но этот подход дает:' aut o.com_ebay.com_facebook.com' .. любая помощь, как мы можем изменить это. – PSraj
Да, возможно, я обновлю ответ с новым подходом – OdeToMyFiddle