0

У меня есть набор данных, состоящий из 181 образцов и 10 признаков и одной целевой переменной. 10 функций являются числовыми и непрерывными по своей природе. Я должен выполнить двоичную классификацию. Я сделал следующие работы: -Бинарная классификация на небольшом наборе данных <200 образцов

I have performed 3 Fold cross validation and got following accuracy results using various models:- 

LinearSVC: 
0.873 
DecisionTreeClassifier: 
0.840 
Gaussian Naive Bayes: 
0.845 
Logistic Regression: 
0.867 
Gradient Boosting Classifier 
0.867 
Support vector classifier rbf: 
0.818 
Random forest: 
0.867 
K-nearest-neighbors: 
0.823 

Пожалуйста, руководство меня, как я мог бы выбрать лучшую модель для этого размера набора данных и убедитесь, что моя модель не переобучение? Я выполнил шаги из карты sklearn http://scikit-learn.org/stable/tutorial/machine_learning_map/

+1

Речь идет не о программировании. Попробуйте опубликовать это на [перекрестной проверке] (http://stats.stackexchange.com/) или [науке о данных] (http://datascience.stackexchange.com/) – gobrewers14

ответ

1

Вы никогда не сможете полностью ее устранить, особенно с таким маленьким образцом.

Во-первых, проверьте, что вы уже делаете. Во-вторых, используйте параметры по умолчанию. Если вы используете результат перекрестной проверки, чтобы изменить параметры, вы, скорее всего, переработаете.

Наконец, посмотрите на всю матрицу замешательства или метрику, которая суммирует это как f1, а не точность. Если у 99% людей нет рака, то модель, которая предсказывает, что у кого-то рак на 99% точный, но не очень полезный.