2016-04-20 9 views
1

Как полярность слов в заявлении вычисляются .... какКак рассчитана полярность для предложения ??? (В анализе настроений)

«я успешен в выполнении задачи, но тщетно»

как каждое слово забито? (например, успешный - 0,7 достижение - 0,8, но - -0,5 тщеславие - - 0,8) как оно рассчитывается? как каждое слово дается значение или оценка? в чем дело? Поскольку я занимаюсь анализом настроений, у меня есть немного вещей, чтобы быть понятным. Это было бы здорово, если бы кто-то помог. Спасибо заранее.

ответ

0

Если вы хотите использовать Python и NLTK, то проверьте Vader (http://www.nltk.org/howto/sentiment.html и пропустите вниз до раздел Vader)

+0

спасибо Том Винч ... вещь, которую я хочу знать, это точно не подход, а то, как подсчитывается полярность .. как результат подсчета для каждого слова в предложении Пример из предоставленной вами ссылки «Я не буду говорить, что фильм поражает, и я бы не стал утверждать, что фильм слишком банальный ». : 0.4215, neg: 0.0, neu: 0.851, pos: 0.149, – pskumar

+0

В таком случае я предлагаю вам Google вокруг NLTK и настроения анализ. –

0

Оценки от отдельных слов могут исходить из предопределенных списков слов, таких как ANEW, General Inquirer, SentiWordNet, LabMT или мой AFINN. Либо отдельные эксперты забили их, либо студентов, либо работников Amazon Mechanical Turk. Очевидно, что эти оценки не являются окончательной истиной.

Оценка слов также может быть вычислена путем контролируемого обучения с аннотированными текстами, или оценки слов могут быть оценены на основе онтологий или совпадений слов.

Что касается агрегирования отдельных слов, существуют различные способы. Один из способов - суммировать все индивидуальные баллы (валентности), другой - принимать максимальную валентность среди слов, третью - нормализовать (делить) на количество слов или количество забитых слов (т. Е. Получить средний балл), или разделите квадратный корень этого числа. Результаты могут немного отличаться. Я сделал некоторую оценку с моим списком слов AFINN: http://www2.imm.dtu.dk/pubdb/views/edoc_download.php/6028/pdf/imm6028.pdf

Другой подход - это рекурсивные модели, такие как модели Ричарда Сохера. Значения чувств отдельных слов агрегируются в древовидной структуре и должны обнаружить, что «но напрасно» - часть вашего примера должна иметь наибольший вес.

+0

Спасибо Finn Arup Nielsen .. Значит, мы не можем знать, как назначены слова и значения полярности. – pskumar

+0

То, как я это делал, заключалось в том, чтобы забить слова между -5 и 5 по моим прежним знаниям о датском и английском языках и посмотрев на как это было использовано, особенно в Twitter. Обычно вы найдете детали в научных статьях, связанных со списками слов, которые объясняют назначение значений. Обычно нет магии. –