similarity

-2зной

1ответ

Оценка схожести компьютеров для всех пар пользователей

У меня есть набор данных, содержащий 200 000 пользователей, 25000 наименований и 5 миллионов баллов. Я должен вычислить оценку подобия (используя либо косинус, либо корреляцию pearson) всех возможных

0зной

1ответ

Lucene custom сходство/оценка

Я ищу модуль сходства в Lucene (Java), который дает оценку на основе веса. Я знаю, что это расплывчато, лучше объяснить с помощью примера. Document 1 ----------- Firstname: Francesca Document 2 -

4зной

2ответ

Поиск похожих файлов в большом архиве

У меня есть архив около 100 миллионов двоичных файлов. Новые файлы регулярно добавляются. Размеры файлов варьируются от примерно 0,1 МБ до примерно 800 МБ. Я могу легко определить, возможно ли, что фа

0зной

1ответ

Как обнаружить похожий текст на большие данные?

Как я только знаю, в этой задаче доступны simhash и minhash. Но все эти алгоритмы должны пересекать всю текстовую базу данных, которая будет довольно сильной. Есть ли какой-либо алгоритм оптимизации и