Я создал анализатор содержания текста в питоне, который анализирует данные из файла и выводатекста анализатор содержания в питоне
- Общее количество слов
- Графа уникальных слов
- Количества предложений
Вот код:
import re
import string
import os
import sys
def function(s):
return re.sub("[%s]" % re.escape(string.punctuation), '', s.lower())
def main():
words_list = []
with open(sys.argv[1], "r") as f:
for line in f:
words_list.extend(line.split())
print "Total word count:", len(words_list)
new_words = map(function, words_list)
print "Unique words:", len(set(new_words))
nb_sentence = 0
for word in words_list:
if re.search(r'[.!?][' "'" '"]*', word):
nb_sentence += 1
print "Sentences:", nb_sentence
if __name__ == "__main__":
main()
Теперь я пытаюсь рассчитать среднюю длину предложения в словах, найти часто используемые фразы (фраза из 3 или более слов, используемых более 3 раз), и составить список используемых слов в порядке убывания частоты. Может ли кто-нибудь помочь?