У меня есть набор данных, состоящий из 181 образцов и 10 признаков и одной целевой переменной. 10 функций являются числовыми и непрерывными по своей природе. Я должен выполнить двоичную классификацию. Я сделал следующие работы: -Бинарная классификация на небольшом наборе данных <200 образцов
I have performed 3 Fold cross validation and got following accuracy results using various models:-
LinearSVC:
0.873
DecisionTreeClassifier:
0.840
Gaussian Naive Bayes:
0.845
Logistic Regression:
0.867
Gradient Boosting Classifier
0.867
Support vector classifier rbf:
0.818
Random forest:
0.867
K-nearest-neighbors:
0.823
Пожалуйста, руководство меня, как я мог бы выбрать лучшую модель для этого размера набора данных и убедитесь, что моя модель не переобучение? Я выполнил шаги из карты sklearn http://scikit-learn.org/stable/tutorial/machine_learning_map/
Речь идет не о программировании. Попробуйте опубликовать это на [перекрестной проверке] (http://stats.stackexchange.com/) или [науке о данных] (http://datascience.stackexchange.com/) – gobrewers14