У меня есть:Распаковка набора слов с Python/NLTK, а затем сравнивая его со стандартным английским словарем
from __future__ import division
import nltk, re, pprint
f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt')
raw = f.read()
tokens = nltk.wordpunct_tokenize(raw)
text = nltk.Text(tokens)
words = [w.lower() for w in text]
f2 = open('/home/a/Desktop/Projects/FinnegansWake/catted-several-long-Russian-novels-and-the-NYT.txt')
englishraw = f2.read()
englishtokens = nltk.wordpunct_tokenize(englishraw)
englishtext = nltk.Text(englishtokens)
englishwords = [w.lower() for w in englishwords]
, который прямо из руководства NLTK. Далее я хочу сравнить vocab
с исчерпывающим набором английских слов, таких как OED, и извлечь разницу - набор слов Finnegans Wake, которые не имеют и, вероятно, никогда не будут, в OED. Я гораздо больше словесный человек, чем человек, ориентированный на математику, поэтому я еще не понял, как это сделать, и в руководстве идет слишком много подробностей о вещах, которые я действительно не хочу делать. Я предполагаю, что это всего лишь одна или две строки кода.
Кстати, как я могу форматировать python в вопросе с подсветкой, как это было бы в текстовом редакторе? – magnetar
Отступ все. Выполняется автоматически, если вы выделите его и нажмите кнопку с символами и нулями над редактором. – katrielalex
О, и ваш код не самый эффективный ... вы могли бы разумно использовать итераторы для сохранения нескольких проходов. – katrielalex