«предварительно построенные» матрицы для скрытого семантического анализа

Я хочу использовать скрытый семантический анализ для небольшого приложения, которое я создаю, но я не хочу самостоятельно создавать матрицы. (Отчасти потому, что у документов, которые у меня были, не было бы очень хорошей учебной коллекции, потому что они бывают короткими и неоднородными, а отчасти потому, что я только что получил новый компьютер, и я нахожу его сукой для установки линейной алгебры и таких библиотеки, которые мне нужны.)«предварительно построенные» матрицы для скрытого семантического анализа

Существуют ли какие-либо «стандартные»/предустановленные варианты LSA? Например, вещи, я ищу, включают:

По умолчанию U, S, V матрицы (то есть, если D представляет собой матрицу терм-документ из некоторого обучающего множества, то D = USV^T является сингулярным значением декомпозиция), так что, учитывая любой вектор запроса q, я могу использовать эти матрицы для вычисления проекции LSA q.
Некоторые алгоритмы LSA с черным ящиком, которые, заданные вектором запроса q, возвращают проекцию LSA q.

источник

2010-11-06 grautur

Патент 4839853? Разве это не истекает? –

@ Ken Bloom, удалил мой комментарий - кажется, патент на LSA действительно истек год назад. –

Вас, возможно, интересует инфраструктура Gensim для Python; в частности, он имеет an example on building the appropriate matrices from English Wikipedia.

источник

2010-11-29 01:18:04 Bkkbrad

«предварительно построенные» матрицы для скрытого семантического анализа

ответ

Смежные вопросы