Я пытаюсь разработать базовый текстовый анализ на R с пакетом tm.Text Mining - Ошибка в создании текстовой матрицы документа («Расширенная»)
входного файла: CSV файла отзывы cointaining нескольких отелей
Я импортировал его и понял, некоторые очистки данных задач с помощью преобразования предложенного пакета тм.
Затем, когда я создаю документ Term Matrix со следующим сценарием:
DocumentTermMatrix(tm_map(reviewc, PlainTextDocument))
что я получаю матрица без слов, но с символами без всякого смысла:
inspect(try[1:5, 200:500])
<<DocumentTermMatrix (documents: 5, terms: 301)>>
Non-/sparse entries: 0/1505
Sparsity : 100%
Maximal term length: 25
Weighting : term frequency (tf)
Terms
Docs “extensiveâ€\u009d “extraâ€\u009d “finest “freeâ€\u009d “fromâ€\u009d “funkyâ€\u009d “goodâ€\u009d “half
character(0) 0 0 0 0 0 0 0 0
character(0) 0 0 0 0 0 0 0 0
character(0) 0 0 0 0 0 0 0 0
character(0) 0 0 0 0 0 0 0 0
character(0) 0 0 0 0 0 0 0 0
Anyone знает, что я должен сделать, чтобы избежать этой ошибки?
Заранее благодарим за помощь
Cheers!
Не могли бы вы создать ссылку на ваш файл csv? – DemetriusRPaula
@DemetriusRPaula https://drive.google.com/file/d/0B9HzLOkZVFz5WUhOcHRFeWdqUjg/view?usp=sharing –
это похоже на проблему с кодировкой; r не считывает кавычки вправо. попробуйте сыграть с параметром 'fileEncoding' при чтении файла: [docs] (https://stat.ethz.ch/R-manual/R-devel/library/utils/html/read.table.html), установив его на «utf-8» или в любом формате, в котором находятся ваши входные данные. См. раздел «кодировка» [здесь] (https://stat.ethz.ch/R-manual/R-devel/library/base/html /connections.html) – patrick