Я выполняю задачу очистки данных в текстовом файле, полном предложений. После завершения этих предложений я хотел бы получить частоту слов в моем сводном списке. Однако я сталкиваясь с проблемой, как при печати стеблей списка, stem_list, я получить список для каждого предложения, как так:Поиск частоты слов после завершения в Python
[u'anyon', u'think', u'forgotten', u'day', u'parti', u'friend', u'friend', u'paymast', u'us', u'longer', u'memori']
[u'valu', u'friend', u'bought', u'properti', u'actual', u'relev', u'repres', u'actual', u'valu', u'properti']
[u'monster', u'wreck', u'reef', u'cargo', u'vessel', u'week', u'passeng', u'ship', u'least', u'24', u'hour', u'upload', u'com']
Я хотел бы получить частоту всех слов, но я только получить частота в предложении, используя следующий код:
fdist = nltk.FreqDist(stem_list)
for word, frequency in fdist.most_common(50):
print(u'{};{}'.format(word, frequency))
Это производит следующий вывод: друга; 2 paymast; 1 больше; 1 Memori; 1 парти; 1 нас; 1 дня; 1 эниона; 1 забыты 1 мозговое; 1 фактических; 2 Проперти; 2 Вал; 2 друг; 1 repres; 1 relev; 1 купил; 1 неделю; 1 грузов; 1 монстра; 1 час ; 1 затонувшее судно; 1 загрузки; 1 passeng; 1 мере, 1 рифа; 1 24; 1 сосуд; 1 судно; 1 ком; 1 внутри, 1 площадь, 1 territori; 1 обычай; 1 воды; 1 3; 1
Слово 'друг' подсчитываются дважды, так как она находится в двух разные предложения. Как бы я мог заставить его подсчитать друга один раз и отобразить друга, 3 в этом случае?
Вы должны definitvely взглянуть на https://docs.python.org/2/library/collections.html#collections.Counter –
способ определения 'stem_list' имеет недопустимый синтаксис. Укажите действительное определение. – trincot