У меня есть набор данных, содержащий 200 000 пользователей, 25000 наименований и 5 миллионов баллов. Я должен вычислить оценку подобия (используя либо косинус, либо корреляцию pearson) всех возможных
Я ищу модуль сходства в Lucene (Java), который дает оценку на основе веса. Я знаю, что это расплывчато, лучше объяснить с помощью примера. Document 1
-----------
Firstname: Francesca
Document 2
-
У меня есть архив около 100 миллионов двоичных файлов. Новые файлы регулярно добавляются. Размеры файлов варьируются от примерно 0,1 МБ до примерно 800 МБ. Я могу легко определить, возможно ли, что фа
Как я только знаю, в этой задаче доступны simhash и minhash. Но все эти алгоритмы должны пересекать всю текстовую базу данных, которая будет довольно сильной. Есть ли какой-либо алгоритм оптимизации и