Как использовать apply в R с двумя кадрами данных?
У меня есть dataframe с ~ 1M строк текста. Я хочу заменить большой список пользовательских стоп-слов, которые пакет TM не может обрабатывать. Список состоит из ~ 37 тыс. Слов. У меня есть следующий код, который работает, и требуется некоторое время, но я хочу улучшить код с помощью функции apply.
Проблема
Я не знаю, как использовать контент из двух dataframes в применимом применяются функции. Вот мой код:
stopwords <- read.table("stopwords.csv", header=TRUE, quote="\"", stringsAsFactors=FALSE)
corpus <- read.delim("corpus.txt", header=TRUE, stringsAsFactors=FALSE)
for(i in 1:nrow(stopwords)){
corpus$text <- gsub(paste("\\<",stopwords$list[i],"\\>", sep=""), "", corpus$text)
message(paste(i, stopwords$list[i], sep=" - ")) #Show in console
}
Я также отображение текущего счета/слова в консоли, чтобы отслеживать прогресс, но как только у меня есть применение функции работать, я обернуть его в pbapply пакета, чтобы получить правильный индикатор ,
Примеры данных
Корпус Dataframe - Одна колонка с «текст» в качестве заголовка
полиции миров действовал решительно премьер Майк Бейрд
полицейскую операцию по карте пораженную область трафика реального трафика NSW
комиссар номер Сципиона заложников не указано
nsw премьер-министр избегать мартина место осведомлено о бдительности
происходит мысли сердца заложников семьи пострадавших
Lindt кафе хороший отважный могучий воин аллаха членоголовый
IKEA полиции консультируют граждан бизнеса избежать торговых площадок
Игнорируемые слова Кадр данных - с одной колонкой с «список» в качестве заголовка.
ааа
AAAA
aaaaaaand
aaaaand
Aaaargh
aaack
aaahh
aaahhhh
aaalll
aaand
aaarse
Aachen
aadityanath
Какова цель угловых кронштейнов? – jlhoward
Это регулярное выражение, которое соответствует только целым словам, в противном случае заменяются части слов. – RUser