Учитывая два документа, я хочу рассчитать сходство между ними. У меня есть меры по выяснению расстояния косинуса, N-грама и tf-idf, используя это: This is a previously asked questionСравнение двух документов в python
Я хочу знать, что еще нужно сделать, используя эти функции.
Кроме того, я попытался реализации Word2Vec, после чего я попытался находя сходства, используя следующий код:
for i in range(len(Words)):
print i
for k in range(len(Words)):
net_sim = 0.0
for j in range(len(Words.ix[i]['A'])):
sim = 0.0
for l in range(len(Words.ix[k]['A'])):
if sim < model.similarity(Words.ix[i]['A'][j],Words.ix[k]['A'][l]):
sim = model.similarity(Words.ix[i]['A'][j],Words.ix[k]['A'][l])
net_sim += sim
Similarity.ix[i][k] = net_sim/len(Words.ix[i]['A'])
Для истории слова в данном документе, я пытаюсь найти наиболее похожий слово во втором документе и добавить их сходство. Затем я делю на число слов, чтобы нормализовать его до диапазона от 0 до 1. Здесь слова - это DataFrame, состоящий из слов разных документов, в отдельных строках, а модель - это модель Word2Vec. Этот процесс занимает много времени, и я хочу его оптимизировать и тем самым искать различные подходы.
Пожалуйста, покажите нам код у вас уже есть! –
http://stackoverflow.com/a/22577329/6350407 –
Пожалуйста, покажите нам код **, который у вас уже есть! Извините, но SO не существует для совместного использования кода, который вы нашли где-то в другом месте. Вы должны проявить хоть какие-то усилия. –