Было бы неплохо получить несколько советов по настройке Apache Spark для классификации случайных лесов.
В настоящее время у нас есть модель, которая выглядит следующим образом:Apache Spark Random Forest slow performance
- featureSubsetStrategy все
- примеси Джини
- maxBins 32
- maxDepth 11
- numberOfClasses 2
- numberOfTrees 100
Мы - ru nning Spark 1.5.1 как автономный кластер.
- 1 Мастер и 2 рабочих узла.
- Объем ОЗУ составляет 32 ГБ на каждом узле с 4 ядрами.
- Классификация занимает 440 мс.
Когда мы увеличиваем количество деревьев до 500, это занимает 8 секунд. Мы попытались уменьшить глубину, но частота ошибок выше. У нас есть около 246 атрибутов.
Возможно, мы делаем что-то неправильно. Любые идеи о том, как мы могли бы улучшить производительность?
Я не знаком с Spark, но, возможно, это проблема с памятью (например, swap)? Потому что кажется, что ваше время выполнения увеличивается нелинейно. –
Это просто предсказание, которое происходит медленно, или же обучение? Вы просто пытаетесь предсказать один пример или многие? –
Прогноз очень медленный, это основная проблема. Раньше тренировка была медленной, но скорость увеличивалась после того, как мы удалили категориальные функции. –