Оценки от отдельных слов могут исходить из предопределенных списков слов, таких как ANEW, General Inquirer, SentiWordNet, LabMT или мой AFINN. Либо отдельные эксперты забили их, либо студентов, либо работников Amazon Mechanical Turk. Очевидно, что эти оценки не являются окончательной истиной.
Оценка слов также может быть вычислена путем контролируемого обучения с аннотированными текстами, или оценки слов могут быть оценены на основе онтологий или совпадений слов.
Что касается агрегирования отдельных слов, существуют различные способы. Один из способов - суммировать все индивидуальные баллы (валентности), другой - принимать максимальную валентность среди слов, третью - нормализовать (делить) на количество слов или количество забитых слов (т. Е. Получить средний балл), или разделите квадратный корень этого числа. Результаты могут немного отличаться. Я сделал некоторую оценку с моим списком слов AFINN: http://www2.imm.dtu.dk/pubdb/views/edoc_download.php/6028/pdf/imm6028.pdf
Другой подход - это рекурсивные модели, такие как модели Ричарда Сохера. Значения чувств отдельных слов агрегируются в древовидной структуре и должны обнаружить, что «но напрасно» - часть вашего примера должна иметь наибольший вес.
спасибо Том Винч ... вещь, которую я хочу знать, это точно не подход, а то, как подсчитывается полярность .. как результат подсчета для каждого слова в предложении Пример из предоставленной вами ссылки «Я не буду говорить, что фильм поражает, и я бы не стал утверждать, что фильм слишком банальный ». : 0.4215, neg: 0.0, neu: 0.851, pos: 0.149, – pskumar
В таком случае я предлагаю вам Google вокруг NLTK и настроения анализ. –