2015-11-14 6 views
1

Я работаю с coreNLP из Stanford, чтобы выполнить анализ настроений по некоторым данным, которые у меня есть, и я работаю над созданием учебной модели. Я знаю, что мы можем создать модель обучения с помощью следующей команды:Вопросы по созданию моделей обучения stanford CoreNLP

java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath  dev.txt -train -model model.ser.gz 

Я знаю, что происходит в файле train.txt. Вы набираете предложения и помещаете их в train.txt, что-то вроде этого: (0 (2 Today) (0 (0 (2 is) (0 (2 a) (0 (0 bad) (2 day)))) (..)))

Но я не понимаю, что находится в файле dev.txt. Несколько раз я читал вопрос this, чтобы понять, что происходит в dev.txt, но мне все еще неясно. Кроме того, скоринг этих предложений вручную стал больным, есть ли доступный инструмент, который упрощает его? Я беспокоюсь, что я использовал неправильное число круглых скобок или какую-то другую глупую ошибку.

Кроме того, любые предложения о том, как долго мой файл train.txt должен быть? Я думаю о том, чтобы набрать 1000 предложений. Этот номер слишком маленький, слишком большой?

Вся ваша помощь оценена :)

ответ

1
  1. dev.txt должны быть такими же, как train.txt только с другим набором предложений. Обратите внимание, что такое же предложение не должно появляться в dev.txt и train.txt. Набор разработки используется для оценки качества модели, которую вы тренируете по данным обучения.

  2. Мы не размещаем инструмент для пометки данных о настроениях. Этот класс может быть полезным в здании данных: http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/sentiment/BuildBinarizedDataset.html

  3. Здесь находятся размеры поезда, Дев и тестовые наборы, используемые для модели настроения: поезд = 8544, DEV = 1101, тест = 2210

+0

Можете ли вы подробно остановиться на dev.txt? Прямо сейчас, я использую твиты для моего файла train.txt. Должен ли я собирать одинаковое количество твитов, оценивать их и затем помещать в файл dev.txt? – user3266259

+0

Кроме того, как только я создал свою модель, как ее проверить? Есть ли файл jar в библиотеке coreNLP, которую я загрузил, чтобы запустить файл образца test.txt? Я прошу прощения за то, что задал вам сразу столько вопросов, но вы, кажется, эксперт: D – user3266259

+0

Я был в ошибке в своем ответе. Из статьи: предложения в дереве были разделены на поезд (8544), dev (1101) и тестовые расщепления (2210) – StanfordNLPHelp

1

Вот некоторые примеры кода для оценки модели

// load a model 
SentimentModel model = SentimentModel.loadSerialized(modelPath); 

// load devTrees 
List<Tree> devTrees; 
devTrees = SentimentUtils.readTreesWithGoldLabels(devPath); 

// evaluate on devTrees 
Evaluate eval = new Evaluate(model); 
eval.eval(devTrees); 
eval.printSummary(); 

вы можете найти то, что вам нужно импортировать, и т.д. ... посмотрев на:

Edu/Стэнфорде/NLP /sentiment/SentimentTraining.java

 Смежные вопросы

  • Нет связанных вопросов^_^