2017-01-31 19 views
4

Я использую LDAModel pyspark для получения тем из корпуса. Моя цель - найти тем, связанных с каждым документом. Для этого я попытался установить topicDistributionCol согласно Документам. Поскольку я новичок в этом, я не уверен, какова цель этой колонки.Как получить тему, связанную с каждым документом, используя pyspark (2.1.0) LdA?

from pyspark.ml.clustering import LDA 
lda_model = LDA(k=10, optimizer="em").setTopicDistributionCol("topicDistributionCol") 
// documents is valid dataset for this lda model 
lda_model = lda_model.fit(documents) 
transformed = lda_model.transform(documents) 

topics = lda_model.describeTopics(maxTermsPerTopic=num_words_per_topic) 
print("The topics described by their top-weighted terms:") 
print topics.show(truncate=False) 

В нем перечислены все темы с termIndices и termWeights.

enter image description here

ниже кода даст мне topicDistributionCol. Здесь каждая строка для каждого документа.

print transformed.select("topicDistributionCol").show(truncate=False) 

enter image description here

Я хочу, чтобы получить документ тему матрицы, как это. Возможно ли это с моделью Lys pysparks?

doc | topic 
1 | [2,4] 
2 | [3,4,6] 

Примечание: Я сделал это с использованием модели GDA Lens ранее с последующим кодом. Но мне нужно использовать модель LDA pysparks.

texts = [[word for word in document.lower().split() if word not in stoplist] for document in documents] 
dictionary = corpora.Dictionary(texts) 

corpus = [dictionary.doc2bow(text) for text in texts] 
doc_topics = LdaModel(corpus=corpus, id2word=dictionary, num_topics=10, passes=10) 
## to fetch topics for one document 
vec_bow = dictionary.doc2bow(text[0]) 
Topics = doc_topics[vec_bow] 
Topic_list = [x[0] for x in Topics] 
## topic list is [1,5] 

ответ

0

Я думаю, что есть простой ответ на этот вопрос. Выполните следующие действия:

transformed.take(10) 

В последнем столбце вывода будет «topicDistribution», которая является распространение документа темы.