Каковы хорошие библиотеки для запуска произвольного классификатора леса для образцов данных 2M?

-4

У меня есть набор данных с 2 миллионами выборок и 1 млн. Функций (это текстовые функции, поэтому число очень велико). Я хотел бы обучить случайный лес для классификации. Каковы лучшие кандидаты на подготовку такого большого набора данных?Каковы хорошие библиотеки для запуска произвольного классификатора леса для образцов данных 2M?

источник

2015-03-25 HappyCoding

[«Вопросы, предлагающие нам рекомендовать или находить книгу, инструмент, библиотеку программного обеспечения, учебное пособие или другой ресурс вне сайта, не относятся к теме для переполнения стека, поскольку они склонны привлекать упрямые ответы и спам. Вместо этого опишите проблему и что было сделано до сих пор, чтобы решить эту проблему. "] (http://stackoverflow.com/help/on-topic) – GoBusto

Не для этого подходящий форум, но я бы начал с Apache Spark, который поддерживает это. –

Спасибо за обмен. – HappyCoding

-1

Ну, в стороне, алгоритмы классификации, такие как Weka, не подходят для матриц с высокой размерностью, поэтому нейронные сети, вероятно, лучше подходят.

В Java есть две активные библиотеки нейронной сети (насколько я знаю), Нейроф, написанный очень умным Зоран Северак и Энког неповторимым Джеффом Хитоном.

Приветствия ...

источник

2015-03-25 12:10:51

После стольких downvotes, так как я уже решил мою проблему, я хотел бы поделиться немного. Я использую Spark, так как в настоящее время он хорошо поддерживает случайный лес и позволяет пользователю экспортировать обученную модель и загружать ее во время фазы прогнозирования. Spark позволяет вычислять в памяти в распределенных кластерах. Мой опыт в том, что случайный лес в искре очень прост в использовании для этого случая.

источник

2016-01-26 02:31:08 HappyCoding

Каковы хорошие библиотеки для запуска произвольного классификатора леса для образцов данных 2M?

ответ

Смежные вопросы