2017-01-30 15 views
0

Я собираюсь использовать библиотеки scikit-learn для моей реализации SVM для классификации.Как загрузить набор данных, содержащий txt-файл в scikit-learn

Значения моих функций равны 0/1, и я сохранил эти значения в файле txt для функций и отдельный файл txt для своих меток.

Теперь моя проблема заключается в том, как я могу загрузить свой внешний набор данных для обучения и фазы тестирования с помощью scikit-learn?

+1

Отъезд документы numpy или pandas. Оба получили функции для чтения csv-файлов. Если ваши файлы не похожи на csv-файлы, вы должны сами их проанализировать. Вы не получите больше дополнительной помощи, поскольку все детали отсутствуют. – sascha

ответ

1

Сохранение векторизованных и особенно сжатых (разреженных) данных в TXT/CSV-файле не самый лучший подход, так как у вас могут быть проблемы при чтении его обратно - вы потеряете dtypes, сжатие/«разреженность» и т. Д. Вы можете даже встречаются случаи, когда вы не сможете прочитать ваш TXT/CSV-файл в памяти.

Here вы можете увидеть пример при преобразовании разреженной матрицы в нормальный (numpy), который заканчивается на MemoryError. Это может случиться с вами, если вы сохраните свою разреженную (сжатую) матрицу в CSV, а затем попытаетесь прочитать ее обратно (несжатый).

Так я рекомендую вам использовать pickling:

сохранение/сериализации ваши данные:

from sklearn.externals import joblib 
joblib.dump(clf, 'filename.pkl') 

где clf ваша обучен модель или другой редкий/сжимаются структура данных

читает его обратно с диска:

from sklearn.externals import joblib 
clf = joblib.load('filename.pkl') 
+0

Спасибо за ваш ответ и вашу иллюстрацию. Я попробую ваши инструкции. – Stateless

+0

@ Shahrooz, это помогло? – MaxU

+0

да и спасибо за вашу помощь. Я просто не знаю, как установить параметры gama и c в моем классификаторе. Должен ли я устанавливать эти параметры вручную для каждого запуска или они будут установлены автоматически? Если они будут установлены автоматически, как я могу найти их значения? – Stateless

 Смежные вопросы

  • Нет связанных вопросов^_^