0

В настоящее время я занимаюсь исследованиями анализа настроений в твиттере. Я хочу объединить предопределенный ресурс лексики, такой как знак полярности отправителя. а затем продолжить его машинным обучением. проблема заключается в получении правильной оценки sentiwordnet, предыдущая работа всегда просто выбирает общий балл отрицательной и положительной полярности значения слова. Я имею в виду, например, слово «сумасшедший» может отображаться в 3 раза отрицательным и в 2 раза положительными словами. Большинство предыдущих работ будут автоматически усредняться по каждой полярности. , поэтому я хочу устранить эти слова перед тем, как получить оценку, чтобы мы действительно могли использовать sentiwordnet, как и должно быть. Я думал, сравнивая подобие целевого предложения и предложения блеска. есть ли способ сравнить его? как вы думаете, он будет работать? если не поделитесь пожалуйста свою идею ..Значение смысла слова в sendiwordnet python

я новичок в этой области и начинающего программиста питона, поэтому я очень нужен совет от вас .. спасибо ..

ответ

4

Это слово неоднозначности смысла проблема, и заставить вашу систему работать достаточно хорошо на любом заданном многозадачном слове будет очень сложно. Вы можете попробовать (сочетание) несколько методов, чтобы определить правильный смысл слова:

  1. Pos мечение уменьшит число кандидатов чувств.

  2. Косинус сходства между предложением и блеском каждого смысла слова в WordNet.

  3. Использование SenseRelate: Он измеряет «сходство WordNet» между различными чувствами целевого слова и его окружающих слов.

  4. Использование WordNet Domains: база данных содержит метки доменов, присвоенные каждому понятию WordNet, такие как «Музыка» для музыкального ощущения «рок». Вместо сравнения фактических слов, найденных в блеске и предложениях, вы можете сравнить метки доменов, которые находятся в них.

  5. Представьте блеск и предложение не самими словами, которые находятся в них, а как средний вектор совпадения слов. Такие векторы могут быть построены с использованием большого текстового корпуса, предпочтительно из того же домена приложения, что и тексты, которые вы неоднозначны. Существуют различные методы для уточнения таких векторов совпадения (tf-idf, PCA, SVD), и вы должны прочитать их отдельно.

Если ваши тексты поступают из очень специализированного домена (например, закона), точность будет выше. Но, если вы работаете с текстами общего языка, вы можете ожидать хорошей точности только на словах, которые не очень многозначны (если в WordNet они имеют не более 3-4 чувств)

 Смежные вопросы

  • Нет связанных вопросов^_^