Я хочу сгруппировать набор твитов. Я уже извлек твиты, очистил их, применил к ним классификатор Naive Bayes и разделил их на два файла, положительные и отрицательные. Наконец, я сделал следующее, чтобы искать сходства между каждым чирикать:Tweet кластеризация после семантического анализа
with open("positive.txt", "r") as pt:
lines = pt.readlines()
for lineA in lines:
vectorA = text_to_vector(lineA)
for lineB in lines:
vectorB = text_to_vector(lineB)
cosine = get_cosine(vectorA, vectorB)
print lineA, "\n", lineB, "\n", "Cosine:", cosine
Теперь это, как предполагается измерить сходство каждого предложения относительно другого, я думал, следующий шаг может быть сложить значения для всех фраз так складывают все значения косинуса для отношения предложения n ко всему предложению, и после этого нарисуйте их и примените что-то вроде KMeans, я не совсем уверен, что я правильно подхожу здесь, поэтому любая помощь очень ценится.
Есть много вариантов, но, основываясь на моем опыте, все они не работают на Tweets. У вас есть дубликаты (простые), почти дубликаты (более сложные, в масштабе). Но кластеры - слишком много мусора в Твиттере, чтобы работать. –