Я не пробовал делать неподготовленный анализ настроений, такой как вы описываете, но от верхней части головы я бы сказал, что вы упрощаете проблему. Просто анализировать прилагательные недостаточно, чтобы получить хорошее представление о настроении текста; например, рассмотрим слово «глупо». В одиночку вы классифицируете это как отрицательное, но если в обзоре продукта должен быть «... [x] продукт делает своих конкурентов глупыми, потому что сначала не думает об этой функции ...», тогда настроение там обязательно будет положительным , Большой контекст, в котором слова появляются, определенно имеет значение в чем-то подобном. Именно поэтому недостаточно для того, чтобы справиться с этой проблемой недостаточно, не поддавшись наглядности на одноклассники (не говоря уже о еще более ограниченных мешках прилагательных).
Предварительно классифицированные данные («данные обучения») помогают в том, что проблема сдвигается от попытки определить, имеет ли текст положительное или отрицательное чувство с нуля, чтобы определить, является ли текст более похожим на положительные тексты или негативные тексты, и классифицировать его таким образом. Другим важным моментом является то, что текстовые анализы, такие как анализ настроений, часто сильно зависят от различий характеристик текстов в зависимости от домена. Вот почему наличие хорошего набора данных для обучения (то есть точные данные из домена, в котором вы работаете, и, мы надеемся, представляем тексты, которые вам нужно классифицировать) так же важно, как и создание хорошего система для классификации.
Не совсем статья, но надеюсь, что это поможет.
Этот получает тег ответа. Это очень интересная статья. – Trindaz