Я использую svm light файлы в качестве хранилища для разреженной матрицы.Почему Dmatrix от xgboost загружает текстовые файлы svm так быстро
тест показывает, что для 31700108x54070 матрицы с 570601944 записей
import xgboost as xgb
dtrain = xgb.DMatrix(train_file)
использовали 21seconds, намного быстрее, чем
from sklearn.datasets import load_svmlight_file
x_train, y_train = load_svmlight_file(train_file)
используется 7минуты.
Перед тем, как взломать код, любой может помочь мне ответить на это?
У вас есть предложения по увеличению функции load_svmlight_file?
спасибо!