Я внедрил неконтролируемый алгоритм анализа настроений на данные с сайтов социальных сетей, в частности из Twitter.
Однако я намерен оценить, что люди говорят о конкретной теме, например, например, «трафик в определенном состоянии».
Я мог бы собирать данные с использованием таких ключевых слов, как «трафик», «заторы», «пешеходы» и т. Д.
Некоторые из этих полученных данных имеют разные контексты и не имеют никакого отношения к трафику.
Мои вопросы -
1. Как отфильтровывать данные по темам?
2. Нужно ли мне выполнять извлечение темы или использовать спам-фильтр?Фильтрация данных twitter
0
A
ответ
0
Может ли что-то вроде this быть полезным? Они предлагают API для анализа твиттер-настроений на основе контекста. Хотя, вы можете столкнуться с тем же вопросом со спамом.
(Извините, это может быть не совсем ответ, но я не могу комментировать).
+0
Спасибо, это интересная ссылка. Но я ищу работу самостоятельно, поскольку реализация является частью академического проекта. – Alpha
Если я правильно понял, вы уже загрузили твиты, используя эти ключевые слова, и теперь хотите узнать, какие из них действительно связаны с трафиком? Я думаю, [это] (https://aritter.github.io/twitter_ner.pdf) может быть отправной точкой. Это в моей куче вещей, чтобы учиться, но я действительно еще не пережил этого. Надеюсь, поможет. – lrnzcig