2016-01-29 1 views
1

В настоящее время я работаю над своим окончательным исследовательским проектом в прошлом году, который представляет собой приложение, которое анализирует отзывы о путешествиях, найденные в Интернете, и дает оценку настроения для определенных туристических достопримечательностей в результате, проводя анализ настроения на уровне аспекта.Sentiment Analysis - Что означает аннотирование набора данных?

У меня есть недавно очищенный набор данных со знаменитого веб-сайта путешествия, который не позволяет использовать их API для исследовательских/академических целей. (bummer)

Мой руководитель сказал, что мне может потребоваться аннотировать этот набор данных, прежде чем использовать его для вышеупомянутой цели. Я немного смущен тем, что означает аннотация в этом контексте. Может ли кто-нибудь объяснить, что именно происходит, когда аннотируется набор данных и как он помогает в анализе настроений?

Мне сказали, что мне, возможно, придется получить двух/трех аннотаторов человека и получить аннотацию данных, чтобы сделать ее менее предвзятой. Я нахожусь в плотном графике, и мне было интересно, есть ли какие-нибудь инструменты, которые могут сделать это для меня? Если да, то каким будет влияние использования таких инструментов над аннотаторами-человеками? Мне также понравятся предложения по таким инструментам, которые вы бы рекомендовали.

Я был бы очень благодарен за подробное объяснение моих вопросов, так как я застрял в том, что мой проект переходит к следующему шагу из-за этого.

Заранее спасибо.

ответ

2

В первом приближении алгоритмы машинного обучения (например, алгоритм анализа настроений) учатся выполнять задачу, которую люди выполняют в настоящее время, собирая множество примеров человека, выполняющего задачу, а затем имитируя их. Когда ваш руководитель говорит об «аннотации», они говорят о сборе этих примеров человека, выполняющего задачу аннотации настроений: аннотирование предложения для настроений. То есть, собирая пары предложений и их настроение, как судили люди. Без этого для программы нечего учиться, и вы застряли в надежде, что программа может дать вам что-то из ничего, чего никогда не будет.

Тем не менее, есть инструменты для сбора таких данных или, по крайней мере, помощи. Amazon Mechanical Turk и другие платформы для краудсорсинга - хорошие ресурсы для такого рода сбора данных. Вы также можете взглянуть на что-то вроде: http://www.crowdflower.com/type-sentiment-analysis.