2016-05-19 10 views
2

Я пытаюсь подготовить анализатор зависящих от нейронной сети Стэнфорда проверки сходства фразы.Где я могу получить данные обучения CoNLL-X?

Как я попытался это:

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz 

ошибка, что я получил это:

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt 
Dev File: null 
Model File: modelOutputFile.txt.gz 
Embedding File: null 
Pre-trained Model File: null 
################### Train 
#Trees: 1 
0 tree(s) are illegal (0.00%). 
1 tree(s) are legal but have multiple roots (100.00%). 
0 tree(s) are legal but not projective (0.00%). 
################### 
#Word: 3 
#POS:3 
#Label: 2 
################### 
#Transitions: 3 
#Labels: 1 
ROOTLABEL: null 
Random generator initialized with seed 1459831358061 
Exception in thread "main" java.lang.NullPointerException 
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile. (DependencyParser.java:636) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676) 
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247) 

помощи заложенной в коде говорит о том, что файл обучение должно быть - «Путь к обучение древовидной структуре в формате CoNLL-X ».

Кто-нибудь знает, где я могу найти данные обучения CoNLL-X для обучения? Я дал учебный файл, но не вложил файл и получил эту ошибку. Мое предположение, если я дам файл внедрения, он может работать.

Прошу пролить некоторый свет на то, какой учебный файл & Вложение файла Я должен использовать и где я могу их найти.

ответ

2

CoNLL-X treebanks

Вы можете получить обучающие данные для датский, голландский, португальский, шведский и доступны для свободного here. Для других языков вам, вероятно, потребуется лицензировать древовидный банк из НРС, к сожалению (подробности для многих языков на этой странице).

Universal Dependencies находятся в формате CoNLL-U, который обычно может быть преобразован в формат CoNLL-X с некоторой работой.

Наконец, есть большой список древесных дров и их наличие на this page. Вы должны иметь возможность преобразовать многие из древовидных зависимостей из этого списка в формат CoNLL-X, если они еще не в этом формате.

Обучение Stanford Neural Net Dependency анализатор

Из this page: Файл вложения не является обязательным, но Treebank нет. Лучшие файлы дерева и вложения для использования зависят от того, какой язык и тип текста вы хотите проанализировать. В идеале вы должны тренировать как можно больше данных в домене/жанре, который вы пытаетесь проанализировать.

+0

С благодарностью @dmcc Я пропустил встроенный файл и передал данные о conll. Он работает сейчас. – Aaron