Следующий скрипт работает на моей машине с n_samples=1000
, но умирает (без ошибок, просто перестает работать) с n_samples=10000
. Это происходит только с использованием дистрибутива Anaconda python (numpy 1.8.1), но это нормально с Enthought's (numpy 1.9.2). Любые идеи, что бы это вызвало?scikit-learn GridSearchCV не работает с увеличением выборок
from sklearn.linear_model import LogisticRegression
from sklearn.grid_search import GridSearchCV
from sklearn.metrics.scorer import log_loss_scorer
from sklearn.cross_validation import KFold
from sklearn import datasets
import numpy as np
X, y = datasets.make_classification(n_samples=10000, n_features=50,
n_informative=35, n_redundant=10,
random_state=1984)
lr = LogisticRegression(random_state=1984)
param_grid = {'C': np.logspace(-1, 2, 4, base=2)}
kf = KFold(n=y.size, n_folds=5, shuffle=True, random_state=1984)
gs = GridSearchCV(estimator=lr, param_grid=param_grid, scoring=log_loss_scorer, cv=kf, verbose=100,
n_jobs=-1)
gs.fit(X, y)
Примечание: Я использую sklearn 0.16.1 в обоих распределений и я использую OS X.
Я заметил, что обновление до версии 1.9.2 Numpy с распределением Enthought (путем обновления вручную) разбивает поиск по сетке. Мне не удавалось понизить версию Anaconda numpy до 1.8.1.
версии numpy и sklearn в каждом дистрибутиве? –
запустить с 'python -v', чтобы найти дополнительную информацию о сбое. – OYRM
На самом деле это не происходит, просто останавливается на самом деле, делая какие-либо успехи в поиске сетки и «зависает» (я не вижу процессора в Activity Monitor). Версии: Enthought: numpy 1.8.1, sklearn 0.16.1; Anaconda: bumpy 1.9.2, sklearn 0.16.1 – user1507844