Создание хорошей модели LDA для Twitter в Python с правильными входными данными

Я занимаюсь тематическим моделированием Twitter, чтобы определить профили пользователей invidual Twitter. Я использую модуль Gensim для создания модели LDA. Мой вопрос заключается в выборе хороших входных данных. Я бы хотел создать темы, которые я бы назначил определенным пользователям. Вопрос касается входных данных. Теперь я использую контролируемый метод выбора пользователей из разных категорий самостоятельно (спорт, ИТ, политика и т. Д.) И включение их твитов в модель, но это не очень эффективно и эффективно.Создание хорошей модели LDA для Twitter в Python с правильными входными данными

Что было бы хорошим методом для создания значимых тем всего Twitter?

источник

2016-09-19 mister_banana_mango

Обратите внимание, что тема из моделирования темы - это нечто отличное от метки или класса в задаче классификации. Убедитесь, что вы хорошо поняли термины, которые используете, и подумайте о своем вопросе снова. Что вы хотите узнать? – jknappen

Вот одно профилирование, которое я использовал, когда работал в компании социальных сетей. Предположим, вы хотите профилировать «спортивных» последователей. Во-первых, используя API Twitter, загрузите всех последователей одного известного спортивного ручка, скажем, «ESPN». Похоже, это:

 "ESPN": 51879246, #These are IDs who follow ESPN 
       2361734293, 
       778094964, 
       23000618, 
       2828513313, 
       2687406674, 
       2402689721, 
       2209802017,

Тогда вы также скачать все ручки, которые 51879246, 2361734293... Подписчиков. Этими темами будут ваши функции.

Теперь все, что вам нужно сделать, это создать матрицу X, размер которой такой же, как и количество функций * количество последователей. Затем начните заполнять эту матрицу 1, когда этот последователь следует определенной теме (функции) в вашем словаре функций.

Тогда вот простые 2 строки, чтобы начать играть.

model = lda.LDA(n_topics=5, n_iter=1000, random_state=1) 
model.fit(X)

источник

2017-05-17 19:38:06 Aaron

Создание хорошей модели LDA для Twitter в Python с правильными входными данными

ответ

Смежные вопросы