Сохранение векторизованных и особенно сжатых (разреженных) данных в TXT/CSV-файле не самый лучший подход, так как у вас могут быть проблемы при чтении его обратно - вы потеряете dtypes, сжатие/«разреженность» и т. Д. Вы можете даже встречаются случаи, когда вы не сможете прочитать ваш TXT/CSV-файл в памяти.
Here вы можете увидеть пример при преобразовании разреженной матрицы в нормальный (numpy), который заканчивается на MemoryError
. Это может случиться с вами, если вы сохраните свою разреженную (сжатую) матрицу в CSV, а затем попытаетесь прочитать ее обратно (несжатый).
Так я рекомендую вам использовать pickling:
сохранение/сериализации ваши данные:
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
где clf
ваша обучен модель или другой редкий/сжимаются структура данных
читает его обратно с диска:
from sklearn.externals import joblib
clf = joblib.load('filename.pkl')
Отъезд документы numpy или pandas. Оба получили функции для чтения csv-файлов. Если ваши файлы не похожи на csv-файлы, вы должны сами их проанализировать. Вы не получите больше дополнительной помощи, поскольку все детали отсутствуют. – sascha