Я хочу взять этот помеченный текст (отформатированный как таковой) и найти среднюю частоту DT-позиционной метки в каждом предложении. ех. DT появляется 1/3 слова в предложении1 и 1/3 слова в предложении2. Затем я хочу добавить их и разделить на количество предложений в тексте (2 в этом случае). Это даст мне средний внешний вид DT за предложение.Средняя частота POS-TAG
from collections import Counter
import nltk
tagged_text = [('A', 'DT'), ('hairy', 'NNS'), ('dog', 'NN')]
[('The', 'DT'), ('mischevious', 'NNS'), ('elephant', 'NN')]
for eachSentence in tagged_text:
Counter(tag for word,tag in tagged)/len(eachsentence.split())
total = sum(counts.values())
float(average) = sum(counts.values())/len(tagged_text.sents())
print(float(average))
Большая проблема для меня является eachSentence часть, которую я не не, как обойти (я не знаю, как определить, что это такое). Я хочу, чтобы этот код мог применяться к сотням предложений, которые имеют одинаковый формат. Я знаю, что есть много проблем с кодом, поэтому, если кто-то может их исправить, я был бы очень благодарен.
Я не уверен, что понимаю, что вы просите. Вы хотите знать, как вы можете назначить свои сотни предложений переменной «everySentence»? – oschlueter