Скажем, я загружаю 'n' количество твитов и удаляю слова длиной < = 2 из них, а затем намечаем каждый твит как «Отрицательный» или «Не отрицательный», так что это формирует мой тренировочный набор.Сентиментальный анализ твитов в python с использованием алгоритма машинного обучения
, но вместо того, чтобы иметь четко определенные атрибуты, например, как набор данных Iris имеет длину отрезка, ширину спада, длину лепестка и ширину лепестка, в моем наборе данных просто каждое слово становится атрибутом, а разные примеры твитов будут иметь разное число атрибутов.
Могу ли я использовать этот набор данных и рассматривать мою проблему как проблему классификации? и попытаться предсказать, является ли новый твит отрицательным или не отрицательным?
или что бы вы предложили как лучший способ предсказать, является ли твит или отрицательным?