2016-09-19 13 views
1

Я занимаюсь тематическим моделированием Twitter, чтобы определить профили пользователей invidual Twitter. Я использую модуль Gensim для создания модели LDA. Мой вопрос заключается в выборе хороших входных данных. Я бы хотел создать темы, которые я бы назначил определенным пользователям. Вопрос касается входных данных. Теперь я использую контролируемый метод выбора пользователей из разных категорий самостоятельно (спорт, ИТ, политика и т. Д.) И включение их твитов в модель, но это не очень эффективно и эффективно.Создание хорошей модели LDA для Twitter в Python с правильными входными данными

Что было бы хорошим методом для создания значимых тем всего Twitter?

+1

Обратите внимание, что тема из моделирования темы - это нечто отличное от метки или класса в задаче классификации. Убедитесь, что вы хорошо поняли термины, которые используете, и подумайте о своем вопросе снова. Что вы хотите узнать? – jknappen

ответ

0

Вот одно профилирование, которое я использовал, когда работал в компании социальных сетей. Предположим, вы хотите профилировать «спортивных» последователей. Во-первых, используя API Twitter, загрузите всех последователей одного известного спортивного ручка, скажем, «ESPN». Похоже, это:

 "ESPN": 51879246, #These are IDs who follow ESPN 
       2361734293, 
       778094964, 
       23000618, 
       2828513313, 
       2687406674, 
       2402689721, 
       2209802017, 

Тогда вы также скачать все ручки, которые 51879246, 2361734293... Подписчиков. Этими темами будут ваши функции.

Теперь все, что вам нужно сделать, это создать матрицу X, размер которой такой же, как и количество функций * количество последователей. Затем начните заполнять эту матрицу 1, когда этот последователь следует определенной теме (функции) в вашем словаре функций.

Тогда вот простые 2 строки, чтобы начать играть.

model = lda.LDA(n_topics=5, n_iter=1000, random_state=1) 
model.fit(X)