Я разрабатываю проект анализа настроений на уровне аспекта для онлайн-отзывов о путешествиях.Поддержанный подход к обучению для извлечения аспекта
У меня есть аннотированный человеческий набор данных, который обозначил аспекты аспекта и категории аспект вместе с их полярностью настроения.
Например,
Sentence:
This beach was a wonderful time for a day party it had a fun crowd and has a big bar with a great atmosphere. The food was delicious too.
выше предложение имеет аспект термины следующие меченых;
{party#positive C} {crowd#positive C} {bar#positive C} {food#positive C}
И следующие аспект категории;
{entertainment#positive C} {accommodation#positive C}
Я хочу попробовать supervised learning
подход для подготовки модели для классификации терминов аспекта из предложений.
Я пользуюсь Stanford CORENLP
библиотекой. Но смутно, как должен выглядеть формат данных обучения? и каков наилучший подход.
Я видел людей, использующих IOB notation
для форматирования данных обучения для обучения NER
систем. Могу ли я использовать аналогичный метод, чтобы это сделать? Как и в, как мне отформатировать файл данных обучения, чтобы получить аспекты, как указано выше, из входного предложения?
Если кто-то может указать мне в правильном направлении, я был бы признателен за это.
Спасибо за ответ. Не могли бы вы рассказать о том, почему набор данных не подходит в текущем формате? В каком формате он должен находиться? –
Для обучения модели NER вам понадобится набор данных с объектами, помеченными в тексте. Нотация IOB - это один из способов сделать это.Чтобы создать такой набор данных, вы можете попытаться совместить слова с ярлыками на текст с помощью сопоставления строк. Я не уверен, насколько хорошо это будет работать. Это действительно зависит от ваших ярлыков. Являются ли они классами или они извлекают слова из текста? Если это последний, вы почти всегда сможете найти, были ли они в тексте. – savac
Спасибо за разъяснение @Sava. На самом деле, аспекты являются словами, которые извлекаются из необработанного текста человеческими аннотаторами. Используя механизм согласования строк, который вы предложили, я думаю, это можно сделать. Помимо нотации IOB, есть ли другие обозначения? –