2016-06-07 3 views
1

У меня есть следующие данные:как удалить HTML-теги из dataframe в г

enter image description here

То, что я хочу сделать, это удалить HTML-теги из колонки описания также, если есть какие-либо данные, такие как это «Ù ... ØØ ± Ø ±/Ù ... ØØ ± Ø ± Ø ©" может быть удалено.

это мой код после удаления null данные.

mydata <- read.csv("data science - sample date.csv", header = TRUE, na.strings=c("", "NA"), sep = ",") 
mydata[mydata==""] <- NA 
mydata <-na.omit(mydata) 
+0

Вы должны были бы разобрать разметку, чтобы сделать это правильно. Что вы хотите сохранить? – duffymo

+0

К сожалению, это файл CSV, который я получил от своего клиента. Я хочу очистить данные и удалить HTML-код. – john

+0

Изображение данных не является воспроизводимым примером. Я бы попытался проанализировать данные, используя библиотеку разбора HTML, поскольку регулярных выражений недостаточно для анализа HTML – cory

ответ

2

Вы могли бы сделать

df <- data.frame(x = c('my <a href="foo">bar</a> <span>rocks</span>')) 
df$x <- gsub("<[^>]+>", "", df$x) 
df 
#    x 
# 1 my bar rocks