2012-01-04 3 views
-2

Мне нужно сравнить два документа и найти степень сходства.Степень подобия

Все, что мне нужно сделать, это сравнить два документа и дать число в результате. Номер должен отображать степень сходства (Аналогичные документы будут иметь большее количество)

Я хочу эффективное средство для выполнения этого процесса. (Сходство не измеряется только на основах подобных слов, но контекст должны быть приняты во внимание тоже.)

Можно ли предложить эффективный алгоритм этого процесса

+0

есть много ресурсов на эту тему. попробуйте выполнить поиск ... –

+0

Я прочитал статью о попарном сходстве. Но я смотрю на поиск эффективных реализаций. Можете ли вы предложить один. Пожалуйста, – siddharth

+0

Зачем этот вопрос получил 3 отрицательных голоса? – bikashg

ответ

0

Заканчивать LSA (Скрытое Sematic анализа). Этот алгоритм просто проверяет подобие двух документов.

Здесь вы должны узнать о технике под названием SVD (Singular Value) разложение,

Если вы хотите реализовать технику документа кластеризации, вы можете попробовать использовать Matlab и установить инструмент Matlab-TMG.

0

Если вам просто нужно быстрое, не математическое описание и реализация (на Java), вот ссылка на n-gram based solution.

Подсказка: для свободного текста, используйте длину гальки 4 или 5 (это параметр алгоритма генерации подписи)