Я не супер опытный с Python, но я хочу сделать некоторые аналитики данных с корпусом, поэтому я делаю эту часть в NLTK Python ,Python NLTK - создание словаря из корпуса и сохранение числа тегов
Я хочу пройти весь корпус и сделать словарь, содержащий каждое слово, которое появляется в наборе данных корпуса. Я хочу, чтобы иметь возможность затем найти слово в этом словаре и найти количество раз, когда это слово появилось как часть речи (тега). Так, например, если бы я искал «собаку», я мог бы найти 100 именных тегов и 5 глагольных тегов и т. Д.
Конечная цель - сохранить этот файл как .txt или что-то еще и загрузить его в другой чтобы проверить вероятность того, что слово является тегом.
Я бы сделал это с помощью Counter и ngrams?
Хорошо, это работает очень хорошо! Благодаря! Можно ли использовать json для печати содержимого wordcounts в текстовый файл? –
Почему бы и нет? Пойдите в город. – alexis
json.dump (wordcounts, open ("corpus_dict.txt", 'w')) выводит текстовый файл бессмыслицы. Я предполагаю, что это связано с тем, что он представляет собой объект объектов? –