2010-10-13 4 views
37

Я читал много статей, объясняющих необходимость в исходном наборе текстов, которые классифицируются как «позитивные» или «негативные», прежде чем система анализа чувств действительно будет работать.Неконтролируемый анализ настроений

Мой вопрос: кто-нибудь пытался сделать рудиментарную проверку «положительных» прилагательных против «негативных» прилагательных, принимая во внимание любые простые отрицатели, чтобы избежать классификации «не счастливы» как положительные? Если да, есть ли какие-либо статьи, которые обсуждают, почему эта стратегия нереалистична?

ответ

55

classic paper by Peter Turney (2002) объясняет способ сделать неконтролируемый анализ настроений (положительные/отрицательные классификации), используя только слова отличные и бедные как набор семян. Turney использует mutual information других слов с этими двумя прилагательными для достижения точности 74%.

+0

Этот получает тег ответа. Это очень интересная статья. – Trindaz

15

Я не пробовал делать неподготовленный анализ настроений, такой как вы описываете, но от верхней части головы я бы сказал, что вы упрощаете проблему. Просто анализировать прилагательные недостаточно, чтобы получить хорошее представление о настроении текста; например, рассмотрим слово «глупо». В одиночку вы классифицируете это как отрицательное, но если в обзоре продукта должен быть «... [x] продукт делает своих конкурентов глупыми, потому что сначала не думает об этой функции ...», тогда настроение там обязательно будет положительным , Большой контекст, в котором слова появляются, определенно имеет значение в чем-то подобном. Именно поэтому недостаточно для того, чтобы справиться с этой проблемой недостаточно, не поддавшись наглядности на одноклассники (не говоря уже о еще более ограниченных мешках прилагательных).

Предварительно классифицированные данные («данные обучения») помогают в том, что проблема сдвигается от попытки определить, имеет ли текст положительное или отрицательное чувство с нуля, чтобы определить, является ли текст более похожим на положительные тексты или негативные тексты, и классифицировать его таким образом. Другим важным моментом является то, что текстовые анализы, такие как анализ настроений, часто сильно зависят от различий характеристик текстов в зависимости от домена. Вот почему наличие хорошего набора данных для обучения (то есть точные данные из домена, в котором вы работаете, и, мы надеемся, представляем тексты, которые вам нужно классифицировать) так же важно, как и создание хорошего система для классификации.

Не совсем статья, но надеюсь, что это поможет.

+0

Спасибо за ваш ответ вафли! Я ценю все материалы, которые я могу получить по этой теме. – Trindaz

2

Я попытался найти ключевые слова, используя словарь аффекта, чтобы предсказать метку настроения на уровне предложения. Учитывая общность словаря (не зависящего от домена), результаты составили около 61%. Эта статья доступна на моей домашней странице.

В несколько улучшенной версии рассматривались отрицательные наречия. Вся система, названная EmoLib, доступна демо:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

С уважением,

+0

Спасибо за это atrilla. Это было очень хорошо для тестирования, которое я сделал. – Trindaz

2

Давид

Я не уверен, если это поможет, но вы можете захотеть взглянуть на Иакова Перкина blog post об использовании NLTK для анализа настроений.

+2

Он выполняет контролируемую классификацию. – theharshest

0

В анализе сентиментов нет волшебных «ярлыков», как и при любом другом анализе текста, который пытается обнаружить лежащую в основе «бескомпромиссность» фрагмента текста. Попытка провести короткие методы доказанного текстового анализа с помощью упрощенной «прилагательной» проверки или аналогичных подходов приводит к двусмысленности, неправильной классификации и т. Д., Которые в конце дня дают вам слабую точность, читаемую по настроениям. Чем более тонкий источник (например, Twitter), тем сложнее проблема.

3

Документ Turney (2002), упомянутый larsmans, является хорошим базовым. В более новых исследованиях Li and He [2009] вводит подход, используя Latent Dirichlet Allocation (LDA) для обучения модели, которая может классифицировать общее настроение и тему статьи одновременно полностью без присмотра. Точность их достижения составляет 84,6%.

+0

это выглядит многообещающим, я прочитаю его и прошу ответить –

+1

Вы действительно в конечном итоге пытаетесь это сделать? Я работаю над аналогичной проблемой, пытаясь сделать анализ настроений в архивах электронной почты enron. – user1943079

+0

@TrungHuynh Я публикую это через 4 года после того, как был опубликован ответ, но теперь ссылка на бумагу была изменена. Можете ли вы рассказать мне название журнала, чтобы я мог искать его в Интернете? – Krishh

2

Я пробовал несколько методов анализа настроений для интеллектуального анализа в обзорах. Что сработало лучше всего для меня - это метод, описанный в книге Лю: http://www.cs.uic.edu/~liub/WebMiningBook.html В этой книге Лю и другие сравнивали многие стратегии и обсуждали различные статьи по анализу настроений и интеллектуальному анализу.

Хотя моя главная цель заключалась в том, чтобы извлечь функции во мнениях, я применил классификатор чувств, чтобы обнаружить положительную и отрицательную классификацию этих функций.

Я использовал NLTK для предварительной обработки (токенизация слова, маркировка POS) и создание триграмм. Затем я также использовал байесовские классификаторы внутри этого места, чтобы сравнить с другими стратегиями, которые Лю был точным.

Один из методов основан на пометке как pos/neg каждый триграмм, выражающий эту информацию, и с использованием некоторого классификатора по этим данным. Другой метод, который я пробовал и работал лучше (около 85% точности в моем наборе данных), вычислял сумму баллов PMI (пунктуальную взаимную информацию) для каждого слова в предложении и слова отличные/бедные в качестве семян pos/neg class.

+0

Привет, Luchux, я работаю над подобным доменом, можете ли вы поделиться своим набором данных, это будет очень полезно. – turing