Я работаю с coreNLP из Stanford, чтобы выполнить анализ настроений по некоторым данным, которые у меня есть, и я работаю над созданием учебной модели. Я знаю, что мы можем создать модель обучения с помощью следующей команды:Вопросы по созданию моделей обучения stanford CoreNLP
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
Я знаю, что происходит в файле train.txt. Вы набираете предложения и помещаете их в train.txt, что-то вроде этого: (0 (2 Today) (0 (0 (2 is) (0 (2 a) (0 (0 bad) (2 day)))) (..)))
Но я не понимаю, что находится в файле dev.txt. Несколько раз я читал вопрос this, чтобы понять, что происходит в dev.txt, но мне все еще неясно. Кроме того, скоринг этих предложений вручную стал больным, есть ли доступный инструмент, который упрощает его? Я беспокоюсь, что я использовал неправильное число круглых скобок или какую-то другую глупую ошибку.
Кроме того, любые предложения о том, как долго мой файл train.txt должен быть? Я думаю о том, чтобы набрать 1000 предложений. Этот номер слишком маленький, слишком большой?
Вся ваша помощь оценена :)
Можете ли вы подробно остановиться на dev.txt? Прямо сейчас, я использую твиты для моего файла train.txt. Должен ли я собирать одинаковое количество твитов, оценивать их и затем помещать в файл dev.txt? – user3266259
Кроме того, как только я создал свою модель, как ее проверить? Есть ли файл jar в библиотеке coreNLP, которую я загрузил, чтобы запустить файл образца test.txt? Я прошу прощения за то, что задал вам сразу столько вопросов, но вы, кажется, эксперт: D – user3266259
Я был в ошибке в своем ответе. Из статьи: предложения в дереве были разделены на поезд (8544), dev (1101) и тестовые расщепления (2210) – StanfordNLPHelp