У меня есть предложения, сохраненные в виде строк, извлеченных из документа. Я хочу применить стандартное косинус-сходство к предложениям. Как мне это сделать?Матрица вероятности перехода для предложений
-1
A
ответ
0
У вас уже есть formula on wikipedia. Каждое из Ai
- это слово, поэтому сначала вам нужно вычислить частоту слов в вашем документе. Вы должны иметь возможность создать карту вхождения слов. Затем вы представляете каждое предложение вектором слов, и вы можете применить формулу.
0
Прежде всего, прочитать о Term-Document matrix
Затем идут для вычисления косинуса с помощью Cosine Similarity calculator
Если вы заинтересованы в добыче текста, а затем пойти на SVD и, наконец, Latent Semantic Analysis