NLTK в python имеет функцию FreqDist, которая дает вам частоту слов в тексте. Я пытаюсь передать свой текст в качестве аргумента, но результат имеет вид: ['', 'e', 'a', 'o', 'n', 'i', 't', 'r', 's', 'l', 'd', 'h', 'c', 'y', 'b', 'u', 'g', '\ n', 'm', 'p', ' w ',' f ',', ',' v ','. ',' '', 'k', 'B', '' ',' M ',' H ',' 9 ',' C ' , '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' '' ') ',' 0 ',' 7 ',' E ',' J ',' O ',' R ',' j ',' x '], тогда как в примере на веб-сайте NLTK результатом были целые слова не только буквы Im делают это следующим образом:.FreqDist с NLTK
file_y = open(fileurl)
p = file_y.read()
fdist = FreqDist(p)
vocab = fdist.keys()
vocab[:100]
вы знаете, что у меня есть неправильные PLS Спасибо
Пожалуйста, добавьте ссылку на пример. –
NB, лучше идиома Python: 'open (fileurl) как file_y: ...' или 'для строки в open (файл url):' – smci