Сегодня я столкнулся с пакетом text2vec, и это именно то, что мне нужно для конкретной проблемы. Однако мне не удалось выяснить, как экспортировать dtm, созданный с помощью text2vec, в какой-то выходной файл. Моя конечная цель - генерировать функции в R с помощью text2vec и импортировать полученные матрицы в H2O для дальнейшего моделирования. H2O может читать форматы CSV или SVMLight.Напишите text2vec dtm в файл (csv или svmlight)
Первый, который я создал, - 987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries
, поэтому он довольно большой. Невозможно использовать as.matrix(), чтобы записать его в CSV, так как он слишком большой. Я подумал, что я мог бы легко записать его в формате SVMLight, но не смог найти библиотеку, которая работает. У кого-нибудь есть другие возможности для получения этого вывода в файл, который я могу читать в H2O?
Спасибо. Я наткнулся на некоторые из них (включая этот), и никто из них не работает. Они все бросают какую-то ошибку или другую. –
приятно знать. Я попытаюсь выяснить, в чем проблема. –
@ dave-kincaid все работает нормально - см. Обновленный ответ с примером. Я нашел сообщение об ошибке: https://github.com/felixr/sparsity/issues/1. Проблема заключается в том, что 'labelVector' должен быть числовой целевой переменной. –