Попытка понять скрытую семантическую индексацию (LSI)

Я изучаю сингулярную декомпозицию ценности, и для каких целей я могу использовать эту концепцию и книгу, которую я читаю, упоминал, что SVD используется в латентном семантическом индексировании. Я прочитал несколько статей о LSI, и похоже, что LSI в основном используется в поисковых системах и в подобных приложениях. Я хотел использовать LSI для небольшого проекта анализа данных, над которым я работаю, и я не уверен, имеет ли это смысл для моего приложения. Вот с чем я работаю.Попытка понять скрытую семантическую индексацию (LSI)

У меня есть список из примерно 20000 игр и 2 атрибутов этого списка - жанр игры и платформа, на которой была выпущена игра. Я хотел использовать LSI для получения некоторой информации о платформе и атрибутах жанра.

Итак, сначала я создал матрицу совпадений, в которой строки представляют 24 разных жанра и столбцов, представляющих 22 разных платформы. Затем я сделал SVD-разложение матрицы совпадения и извлек первые два столбца из U и V и сделал 2d-график для U и V. Сюжет выглядит следующим образом.

Так что мой вопрос, можно ли считать это значимое использование латентного семантического индексирования, а также, как я могу интерпретировать из этого графика? Например, мы видим, что Genre Action и платформенный ПК находятся далеко от всех других переменных, это говорит нам что-нибудь об этом жанре и платформе в частности?

спасибо.

источник

2016-12-10 Saik

SVD обычно используется для уменьшения размерности и выявления скрытых макро-характеристик или шаблонов для более мелкозернистого поведения. Этот метод может быть применен практически к любой проблеме системы рекомендаций.

Я не уверен, что о параметре, который вы использовали, чтобы использовать для реализации Вашего СВД (если он есть на самом деле конвергентных), но некоторые из возможных интерпретаций вашего графика:

ясно 2 типа игровой платформы (что случается будь то консоль против ПК)
Есть такие игры, как «СПОРТ», которые в основном играют на консоли, в то время как другие, такие как «стрелок, ролевая игра, симуляция, приключение», являются более неформальными (они эквивалентны для обоих).
Я не очень уверен, что «стратегия» и игра «действие»

удачи

источник

2017-04-05 09:17:16

Попытка понять скрытую семантическую индексацию (LSI)

ответ

Смежные вопросы