Чтобы найти сходство между двумя документами, я планирую принять использование mahout для выполнения этой задачи.Расчет сходства косинусов в mahout
Этот процесс будет включать в себя:
- преобразования документ в ТФ-IDF
- Удаление стоп-слова (что делает поиск эффективного)
- Run косинус подобия
- Дайте степень сходства
Я планирую реализовать это в mahout. Я новичок в mahout, может кто-нибудь помочь мне с несколькими учебниками, чтобы выполнить это, и сказать мне, является ли это эффективным средством для вычисления сходства между документами.
И разумно ли использовать mahout на окнах или мне нужно перейти на linux .. пожалуйста, помогите – siddharth
Что вы уже пробовали? с какими проблемами вы сталкиваетесь? Если вам нужно общее введение, вы должны прочитать Маху в действии. –