Я работаю над механизмом рекомендаций, который использует элементный фильтр для создания рекомендаций для ресторанов. В каждом ресторане есть отзывы с рейтингом от 1 до 5.
Каждый алгоритм рекомендаций борется с проблемой разреженности данных, поэтому я искал решения для расчета правильной корреляции.Минимальный объем данных для элементарного фильтра совместной работы
Я использую настроенное сходство косинусов между ресторанами.
Если вы хотите вычислить сходство между ресторанами, вам нужны пользователи, которые оценили оба ресторана. Но каков был бы минимум пользователей, которые оценили оба ресторана, чтобы получить правильную корреляцию?
Из тестирования я обнаружил, что 1 набор пользователей, которые оценили оба ресторана, имеют плохое сходство (очевидно). Часто это -1 или 1. Поэтому я увеличил его до 2-х пользователей, у которых есть оба ресторана, что дало мне больше общего. Мне просто сложно определить, достаточно ли это сходство. Есть ли метод, который либо проверяет точность этого сходства, либо содержит рекомендации о том, каков минимальный?