Python, LDA: Как получить идентификатор ключевых слов вместо самих ключевых слов с Gensim?

Я применяю метод LDA с помощью Gensim для извлечения ключевых слов из документов. Я могу выделить темы, а затем назначить эти темы и ключевые слова, связанные с документами.Python, LDA: Как получить идентификатор ключевых слов вместо самих ключевых слов с Gensim?

Я бы хотел иметь идентификаторы этих терминов (или ключевых слов) вместо самих терминов. Я знаю, что corpus[i] извлекает список пар [(term_id, term_frequency) ...] документа i, но я не вижу, как использовать это в своем коде для извлечения только идентификаторов и назначения его моим результатам.

Мой код выглядит следующим образом:

ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=num_topics, id2word = dictionary, passes=passes, minimum_probability=0) 

# Assinging the topics to the document in corpus 
lda_corpus = ldamodel[corpus] 

# Find the threshold, let's set the threshold to be 1/#clusters, 
# To prove that the threshold is sane, we average the sum of all probabilities: 
scores = list(chain(*[[score for topic_id,score in topic] \ 
        for topic in [doc for doc in lda_corpus]])) 

threshold = sum(scores)/len(scores) 
print(threshold) 

for t in range(len(topic_tuple)): 

    key_words.append([topic_tuple[t][j][0] for j in range(num_words)]) 
    df_key_words = pd.DataFrame({'key_words' : key_words}) 

    documents_corpus.append([j for i,j in zip(lda_corpus,doc_set) if i[t][1] > threshold]) 
    df_documents_corpus = pd.DataFrame({'documents_corpus' : documents_corpus}) 

    documents_corpus_id.append([i for d,i in zip(lda_corpus, doc_set_id) if d[t][1] > threshold]) 
    df_documents_corpus_id = pd.DataFrame({'documents_corpus_id' : documents_corpus_id}) 


result.append(pd.concat([df_key_words, df_documents_corpus, df_documents_corpus_id ], axis=1))

Спасибо заранее и спросите меня, если больше информации необходимы.

источник

2017-01-20 Amy21

В случае, если кто-то имеет тот же вопрос, который у меня был, вот ответ для обратного отображения:

reverse_map = dict((ldamodel.id2word[id],id) for id in ldamodel.id2word)

Благодаря bigdeeperadvisors

источник

2017-01-23 16:13:16 Amy21

Python, LDA: Как получить идентификатор ключевых слов вместо самих ключевых слов с Gensim?

ответ

Смежные вопросы