2012-01-05 6 views
1

Чтобы найти сходство между двумя документами, я планирую принять использование mahout для выполнения этой задачи.Расчет сходства косинусов в mahout

Этот процесс будет включать в себя:

  1. преобразования документ в ТФ-IDF
  2. Удаление стоп-слова (что делает поиск эффективного)
  3. Run косинус подобия
  4. Дайте степень сходства

Я планирую реализовать это в mahout. Я новичок в mahout, может кто-нибудь помочь мне с несколькими учебниками, чтобы выполнить это, и сказать мне, является ли это эффективным средством для вычисления сходства между документами.

+0

И разумно ли использовать mahout на окнах или мне нужно перейти на linux .. пожалуйста, помогите – siddharth

+0

Что вы уже пробовали? с какими проблемами вы сталкиваетесь? Если вам нужно общее введение, вы должны прочитать Маху в действии. –

ответ

2

Вам не нужно ничего внедрять. Используйте seqdirectory и seq2sparse для векторизации ваших данных. После этого вы можете использовать RowSimilarityJob для вычисления парных косинусных сходств.

+0

Спасибо за помощь. Сейчас я работаю над mahout – siddharth