2016-08-05 8 views
1

Я экспериментировал с машинным обучением и нуждался в разработке модели, которая будет делать прогноз, основанный на ряде переменных. Самый простой способ, которым я могу объяснить это на примере ниже «играть в гольф»:Изучение машины Наивный байесовский классификатор в Python

train.csv

Outlook,Temperature,Humidity,Windy,Play 
overcast,hot,high,FALSE,yes 
overcast,cool,normal,TRUE,yes 
overcast,mild,high,TRUE,yes 
overcast,hot,normal,FALSE,yes 
rainy,mild,high,FALSE,yes 
rainy,cool,normal,FALSE,yes 
rainy,cool,normal,TRUE,no 
rainy,mild,normal,FALSE,yes 
rainy,mild,high,TRUE,no 
sunny,hot,high,FALSE,no 
sunny,hot,high,TRUE,no 
sunny,mild,high,FALSE,no 
sunny,cool,normal,FALSE,yes 
sunny,mild,normal,TRUE,yes 

программа должна вставить прогноз в makeprediciton.csv файл

Outlook,Temperature,Humidity,Windy,Play 
rainy,hot,normal,TRUE, 

Я смог применить этот классификатор, используя excel. Удивление, если в python есть простая библиотека, которая может помочь мне группировать частоты и выполнять вычисления, а не писать код вручную.

Вы можете увидеть мой подход через первенствует в ссылке ниже: http://www.filedropper.com/playgolf

Любая помощь будет принята с благодарностью.

+2

Посмотрите ' scikit-learn', а также, пожалуйста, воздержитесь от вопроса о библиотечных рекомендациях по stackoverflow. В «howto ask» явно указано, что такие вопросы не подходят для stackoverflow. – cel

ответ

1

Это зависит. Если вы не хотите вводить код, попробуйте Rapidminier. Это очень просто, чтобы учиться и экспериментировать. Это documentation очень хорошо и ясно. Вы можете найти This example для Naive Bayesian классификатор и получить результат.


Кроме того, если вы хотите, чтобы некоторые кодирования и использовать питон языки, попробуйте Scikit-learn ведьмой более продвинута Lib в питона. Он использует scipy и numpy и имеет очень мощную реализацию алгоритмов интеллектуального анализа данных. Для примера вы должны сначала использовать One-Hot-Encoding изменить категорическое функцию высокой размерности разреженного вектора, а затем использовать классификатор как Naive Bayesian


Также для чтения CSV-файла, вы можете использовать Pandas