Как загрузить набор данных, содержащий txt-файл в scikit-learn

Я собираюсь использовать библиотеки scikit-learn для моей реализации SVM для классификации.Как загрузить набор данных, содержащий txt-файл в scikit-learn

Значения моих функций равны 0/1, и я сохранил эти значения в файле txt для функций и отдельный файл txt для своих меток.

Теперь моя проблема заключается в том, как я могу загрузить свой внешний набор данных для обучения и фазы тестирования с помощью scikit-learn?

источник

2017-01-30 Stateless

Отъезд документы numpy или pandas. Оба получили функции для чтения csv-файлов. Если ваши файлы не похожи на csv-файлы, вы должны сами их проанализировать. Вы не получите больше дополнительной помощи, поскольку все детали отсутствуют. – sascha

Сохранение векторизованных и особенно сжатых (разреженных) данных в TXT/CSV-файле не самый лучший подход, так как у вас могут быть проблемы при чтении его обратно - вы потеряете dtypes, сжатие/«разреженность» и т. Д. Вы можете даже встречаются случаи, когда вы не сможете прочитать ваш TXT/CSV-файл в памяти.

Here вы можете увидеть пример при преобразовании разреженной матрицы в нормальный (numpy), который заканчивается на MemoryError. Это может случиться с вами, если вы сохраните свою разреженную (сжатую) матрицу в CSV, а затем попытаетесь прочитать ее обратно (несжатый).

Так я рекомендую вам использовать pickling:

сохранение/сериализации ваши данные:

from sklearn.externals import joblib 
joblib.dump(clf, 'filename.pkl')

где clf ваша обучен модель или другой редкий/сжимаются структура данных

читает его обратно с диска:

from sklearn.externals import joblib 
clf = joblib.load('filename.pkl')

источник

2017-01-30 16:10:31 MaxU

Спасибо за ваш ответ и вашу иллюстрацию. Я попробую ваши инструкции. – Stateless

@ Shahrooz, это помогло? – MaxU

да и спасибо за вашу помощь. Я просто не знаю, как установить параметры gama и c в моем классификаторе. Должен ли я устанавливать эти параметры вручную для каждого запуска или они будут установлены автоматически? Если они будут установлены автоматически, как я могу найти их значения? – Stateless

Как загрузить набор данных, содержащий txt-файл в scikit-learn

ответ

Смежные вопросы