Я пытаюсь использовать набор данных анализа настроений Стэнфорда, чтобы провести исследование анализа настроений. Я загружаю набор данных enter link description here от http://nlp.stanford.edu/sentiment/index.html. После чтения файла readme у меня все еще есть путаница.Как использовать Stanford Sentiment Analysis Dataset
Первый вопрос, в «50446» линиях dictionary.txt файла, он показывает «фразы Идентификаторы» это предложение является «No.226166», поэтому при поиске в sentiment_lable.txt файла, я найти в строке «226168» «значения настроений» фразы «No.226166» является 0,69444. Но в строке «50445» файла dictionary.txt это предложение равно предложению в строке «50446». Но это предложение имеет разные «значения чувств» в файле sentiment_lable.txt, почему? !!!
Второй вопроса: В какой-то анализе настроений бумаги, они не только использовать полноразмерное предложение в подготовке предложений по подготовке модели, но и использовать меченые фразы, которые происходят в подразделы из учебных предложений для обучения модели. Но я нахожу некоторую фразу в файле dictionary.txt, такой как строки 2 и 3, которые бесполезны, следует ли использовать эти бесполезные фразы для обучения моей модели?