это текст в моем dataframe ФР, который имеет текстовый столбец под названием «problem_note_text»Как разбить текст на две значимые слова в R
SSCIssue: Примечание Диспенсер Failureperformed проверки/dispensor неисправности/спросил магазины взять ноту dispensor, и установить его обратно/по-прежнему сообщение об ошибке говорит передняя дверь открыта/CE, следовательно, ATTN детали reqContact - Оливия Табер 01159063390/7 утра-11 вечера
df$problem_note_text <- tolower(df$problem_note_text)
df$problem_note_text <- tm::removeNumbers(df$problem_note_text)
df$problem_note_text<- str_replace_all(df$problem_note_text, " ", "") # replace double spaces with single space
df$problem_note_text = str_replace_all(df$problem_note_text, pattern = "[[:punct:]]", " ")
df$problem_note_text<- tm::removeWords(x = df$problem_note_text, stopwords(kind = 'english'))
Words = all_words(df$problem_note_text, begins.with=NULL)
Теперь у dataframe, который имеет список слов, но есть wo выстр как
"Failureperformed"
, который должен быть разделен на две значимые слова, как
"Failure" "выполнена".
, как я это делаю, также слова dataframe также содержат такие слова, как
«им», «ч»
, которые не имеют смысла и должны быть удалены, Я не знаю, как этого добиться.
Если нет картины, это не выполнимо – akrun
Как вы относитесь к что-то вроде 'nowhere' - как' no' и 'где' или' now' и 'Here'? – nrussell
Я думал о том, что есть какой-то словарь, который можно использовать для синтаксического анализа предложения. Я использовал функцию qdap all_words для получения слов из предложений, которые у меня были, но несколько слов, похоже, не были хорошо проанализированы, и я получил совместные слова без смысла. –