2013-06-13 3 views
3

Скажем, я загружаю 'n' количество твитов и удаляю слова длиной < = 2 из них, а затем намечаем каждый твит как «Отрицательный» или «Не отрицательный», так что это формирует мой тренировочный набор.Сентиментальный анализ твитов в python с использованием алгоритма машинного обучения

, но вместо того, чтобы иметь четко определенные атрибуты, например, как набор данных Iris имеет длину отрезка, ширину спада, длину лепестка и ширину лепестка, в моем наборе данных просто каждое слово становится атрибутом, а разные примеры твитов будут иметь разное число атрибутов.

Могу ли я использовать этот набор данных и рассматривать мою проблему как проблему классификации? и попытаться предсказать, является ли новый твит отрицательным или не отрицательным?

или что бы вы предложили как лучший способ предсказать, является ли твит или отрицательным?

ответ

4

Вы описываете проблему классификации стандартного текста. В этой настройке набор функций представляет собой (конечный) набор слов вместо длины, ширины, длины, ...

В результате каждый документ представляется в отношении всех таких функций (все документы имеют то же количество функций), но большая часть значений будет равна нулю, создавая очень разреженный вектор.

Это лучший способ предсказать полярность/настроение, но вы должны улучшить свое знание темы немного больше. Я бы предложил прочитать Sebastiani's survey on Text Classification.

С уважением,

 Смежные вопросы

  • Нет связанных вопросов^_^