У меня есть набор данных с 2 миллионами выборок и 1 млн. Функций (это текстовые функции, поэтому число очень велико). Я хотел бы обучить случайный лес для классификации. Каковы лучшие кандидаты на подготовку такого большого набора данных?Каковы хорошие библиотеки для запуска произвольного классификатора леса для образцов данных 2M?
-4
A
ответ
-1
Ну, в стороне, алгоритмы классификации, такие как Weka, не подходят для матриц с высокой размерностью, поэтому нейронные сети, вероятно, лучше подходят.
В Java есть две активные библиотеки нейронной сети (насколько я знаю), Нейроф, написанный очень умным Зоран Северак и Энког неповторимым Джеффом Хитоном.
Приветствия ...
0
После стольких downvotes, так как я уже решил мою проблему, я хотел бы поделиться немного. Я использую Spark, так как в настоящее время он хорошо поддерживает случайный лес и позволяет пользователю экспортировать обученную модель и загружать ее во время фазы прогнозирования. Spark позволяет вычислять в памяти в распределенных кластерах. Мой опыт в том, что случайный лес в искре очень прост в использовании для этого случая.
[«Вопросы, предлагающие нам рекомендовать или находить книгу, инструмент, библиотеку программного обеспечения, учебное пособие или другой ресурс вне сайта, не относятся к теме для переполнения стека, поскольку они склонны привлекать упрямые ответы и спам. Вместо этого опишите проблему и что было сделано до сих пор, чтобы решить эту проблему. "] (http://stackoverflow.com/help/on-topic) – GoBusto
Не для этого подходящий форум, но я бы начал с Apache Spark, который поддерживает это. –
Спасибо за обмен. – HappyCoding