1

Я пытаюсь использовать набор данных анализа настроений Стэнфорда, чтобы провести исследование анализа настроений. Я загружаю набор данных enter link description here от http://nlp.stanford.edu/sentiment/index.html. После чтения файла readme у меня все еще есть путаница.Как использовать Stanford Sentiment Analysis Dataset

Первый вопрос, в «50446» линиях dictionary.txt файла, он показывает «фразы Идентификаторы» это предложение является «No.226166», поэтому при поиске в sentiment_lable.txt файла, я найти в строке «226168» «значения настроений» фразы «No.226166» является 0,69444. Но в строке «50445» файла dictionary.txt это предложение равно предложению в строке «50446». Но это предложение имеет разные «значения чувств» в файле sentiment_lable.txt, почему? !!!

Второй вопроса: В какой-то анализе настроений бумаги, они не только использовать полноразмерное предложение в подготовке предложений по подготовке модели, но и использовать меченые фразы, которые происходят в подразделы из учебных предложений для обучения модели. Но я нахожу некоторую фразу в файле dictionary.txt, такой как строки 2 и 3, которые бесполезны, следует ли использовать эти бесполезные фразы для обучения моей модели?

ответ

0

Формат файла dictionary.txt является

<Phrase>|<ID> 

Формат sentiment_labels.txt является

<Phrase ID>|<Score> 

Так, например

id: 50445 phrase: control of both his medium and his message 
score: .777 

id: 50446 phrase: controlled display of murderous vulnerability ensures that malice has a very human face 
score: .444 

 Смежные вопросы

  • Нет связанных вопросов^_^