Я использую инструментарий для анализа Parsing в Stanford NLP. Учитывая слово в лексиконе, как я могу найти его частоту *? Или, учитывая частотный ранг, как я могу определить соответствующее слово?Java Stanford NLP: найдите частоту слов?
* на всем языке, а не только на образец текста.
Это демо-инструментария я использую:
class ParserDemo {
public static void main(String[] args) {
LexicalizedParser lp = new LexicalizedParser("englishPCFG.ser.gz");
lp.setOptionFlags(new String[]{"-maxLength", "80", "-retainTmpSubcategories"});
String[] sent = { "Sincerity", "may", "frighten", "the", "boy", "." };
Tree parse = (Tree) lp.apply(Arrays.asList(sent));
parse.pennPrint();
System.out.println();
TreebankLanguagePack tlp = new PennTreebankLanguagePack();
GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();
GrammaticalStructure gs = gsf.newGrammaticalStructure(parse);
Collection tdl = gs.typedDependenciesCollapsed();
System.out.println(tdl);
System.out.println();
TreePrint tp = new TreePrint("penn,typedDependenciesCollapsed");
tp.printTree(parse);
}
}
Не думаю, что я понял вопрос. Что такое поиск частоты слов, связанных с разбором? – Stompchicken
Я хочу получить оценку чей-то словарного запаса, посмотрев на лексическую частоту использования слов. –