2016-07-01 3 views
1

У меня есть информация обследований, которая содержит бесплатный текст, который я бы хотел очистить, а затем поместил в набор данных транзакций для запуска в пакете arules R. Сейчас текст выглядит так.Лучший способ очистить бесплатный текст, а затем превратить в набор данных транзакций

id | Answers  
1 | John thinks that the product is not worth the price 
2 | Amy believes that the functionality is well above expectations 

Вот что я пытаюсь сделать:

1 | John | thinks | Product  | Not | Worth | Price  
1 | Amy | Believes | Functionality | Above | Expectations 

Прямо сейчас я был в состоянии очистить данные, используя tm пакет, но я не знаю, что это лучший способ, чтобы преобразовать его к набору данных транзакции. Я превратил информацию во все строчные буквы и удалил стоп-слова.

Давайте просто скажем, что мои данные находятся в кадре данных под названием «Вопросы». Я не могу преобразовать корпус в набор данных транзакции после того, как я его очистил.

+0

'stri_split_fixed' библиотеки 'stringi'? – Bg1850

+0

Вы должны сохранить его как список, а не кадр данных – Bg1850

+0

Можно ли сохранить содержимое моего тела в виде списка? – djturbine

ответ

0

Вы можете попробовать:

library(stringr) 
str_split(data$Answers, " ") 

Выходной список:

[[1]] 
[1] "John" "thinks" "that" "the"  "product" "is"  "not"  "worth" "the"  "price" 

[[2]] 
[1] "Amy"   "believes"  "that"   "the"   "functionality" "is"   
[7] "well"   "above"   "expectations" 

Edit:

Удаление дубликатов с помощью функции unique:

my_list <- str_split(data$Answers, " ") 
lapply(my_list , unique) 

[[1]] 
[1] "John" "thinks" "that" "the"  "product" "is"  "not"  "worth" "price" 

[[2]] 
[1] "Amy"   "believes"  "that"   "the"   "functionality" "is"   
[7] "well"   "above"   "expectations" 
+0

Это было! Очень ценю помощь. Вы не знаете, как сохранить уникальность из этого списка? Поэтому в каждом факторе появляются только уникальные слова. Ex. Продукт не похож на другой продукт, будет, продукт не похож. – djturbine

+0

См. Мои правки и condsider, чтобы отметить ответ, если необходимо, нажав кнопку проверки слева. – Jimbou

+0

Я, должно быть, попробовал кучу различных уникальных комбинаций функций, но забыл про себя. Еще раз большое спасибо. – djturbine