Я изучаю сингулярную декомпозицию ценности, и для каких целей я могу использовать эту концепцию и книгу, которую я читаю, упоминал, что SVD используется в латентном семантическом индексировании. Я прочитал несколько статей о LSI, и похоже, что LSI в основном используется в поисковых системах и в подобных приложениях. Я хотел использовать LSI для небольшого проекта анализа данных, над которым я работаю, и я не уверен, имеет ли это смысл для моего приложения. Вот с чем я работаю.Попытка понять скрытую семантическую индексацию (LSI)
У меня есть список из примерно 20000 игр и 2 атрибутов этого списка - жанр игры и платформа, на которой была выпущена игра. Я хотел использовать LSI для получения некоторой информации о платформе и атрибутах жанра.
Итак, сначала я создал матрицу совпадений, в которой строки представляют 24 разных жанра и столбцов, представляющих 22 разных платформы. Затем я сделал SVD-разложение матрицы совпадения и извлек первые два столбца из U и V и сделал 2d-график для U и V. Сюжет выглядит следующим образом.
Так что мой вопрос, можно ли считать это значимое использование латентного семантического индексирования, а также, как я могу интерпретировать из этого графика? Например, мы видим, что Genre Action и платформенный ПК находятся далеко от всех других переменных, это говорит нам что-нибудь об этом жанре и платформе в частности?
спасибо.