У меня есть дата-карта с URL-адресами 100K. Ниже приведено подмножество.urltools: получение доменов не работает
URLs <- c("123kbk.weebly.com",
"123kinderstreet.weebly.com",
"118rocks.weebly.com",
"100detonados.blogspot.com.br",
"100detonados.blogspot.com.br",
"12d3.x1.realtypromls.com",
"15kdmh7773q7.asia.com3456.com",
"weebly.com")
test<-data.frame(URLs)
URLs
1 123kbk.weebly.com
2 123kinderstreet.weebly.com
3 118rocks.weebly.com
4 100detonados.blogspot.com.br
5 100detonados.blogspot.com.br
6 12d3.x1.realtypromls.com
7 15kdmh7773q7.asia.com3456.com
8 weebly.com
Затем я хочу, чтобы извлечь фактические домены и я получаю две разные ответы из следующих функций из urltools
пакета:
suffix_extract(domain(test$URLs))
host subdomain domain suffix
1 123kbk.weebly.com 123kbk weebly com
2 123kinderstreet.weebly.com 123kinderstreet weebly com
3 118rocks.weebly.com 118rocks weebly com
4 100detonados.blogspot.com.br <NA> 100detonados blogspot.com.br
5 100detonados.blogspot.com.br <NA> 100detonados blogspot.com.br
6 12d3.x1.realtypromls.com 12d3.x1 realtypromls com
7 15kdmh7773q7.asia.com3456.com 15kdmh7773q7.asia com3456 com
8 weebly.com <NA> weebly com
blogspot.com.br
должен быть домен, и в этом случае это суффикс.
Тогда я попробовал этот пример:
host_extract(domain(test$URLs))
domain host
1 123kbk.weebly.com 123kbk
2 123kinderstreet.weebly.com 123kinderstreet
3 118rocks.weebly.com 118rocks
4 100detonados.blogspot.com.br 100detonados
5 100detonados.blogspot.com.br 100detonados
6 12d3.x1.realtypromls.com 12d3
7 15kdmh7773q7.asia.com3456.com 15kdmh7773q7
8 weebly.com weebly
Когда я пытаюсь это, blogspot.com.br
работает, но хозяин не принимает 12d3.x1
и 15kdmh7773q7.asia
. Он также делает weebly
хостом в последней строке, который я собирался использовать, чтобы удалить их из списка доменов.
Есть ли более эффективная функция для извлечения доменов? Или есть способ, которым я могу использовать обе эти функции, чтобы исправить ошибку, которую она совершает?
Спасибо!