Я новичок в Stanford CoreNLP, Первоначально я работал с проектом Моисея. До сих пор я работал с демо-файлом ParserDemo2, и все отлично работало с использованием модели englishPCFG.caseless.ser.gz. Мне нужно создать свою собственную модель, из текстового англоязычного корпуса, который у меня есть.Модель поезда из Stanford CoreNLP из текстового файла, такого как englishPCFG.ser.gz
До сих пор я искал и обнаружил, что мне нужно создать TreeBank и использовать метод trainFromTreebank в классе LexicalizedParser.
Я действительно смущен, как это сделать.
Можете ли вы предоставить некоторую информацию или указать мне документацию о том, как это сделать?
Я смущен о том, как сделать нормальный толковый корпус в формат Penn Treebank я пошел https://www.cis.upenn.edu/~treebank/, но не нашел ничего полезного. – user2800040
Что означает «одноязычный корпус»? Как выглядят данные? Он должен иметь уже существующие аннотации parse parse. –
Все, что у меня есть, - это большой корпус английских предложений, с помощью которого мне нужно обучать модель. – user2800040