2015-12-18 1 views
2

Было бы неплохо получить несколько советов по настройке Apache Spark для классификации случайных лесов.
В настоящее время у нас есть модель, которая выглядит следующим образом:Apache Spark Random Forest slow performance

  • featureSubsetStrategy все
  • примеси Джини
  • maxBins 32
  • maxDepth 11
  • numberOfClasses 2
  • numberOfTrees 100

Мы - ru nning Spark 1.5.1 как автономный кластер.

  • 1 Мастер и 2 рабочих узла.
  • Объем ОЗУ составляет 32 ГБ на каждом узле с 4 ядрами.
  • Классификация занимает 440 мс.

Когда мы увеличиваем количество деревьев до 500, это занимает 8 секунд. Мы попытались уменьшить глубину, но частота ошибок выше. У нас есть около 246 атрибутов.

Возможно, мы делаем что-то неправильно. Любые идеи о том, как мы могли бы улучшить производительность?

+0

Я не знаком с Spark, но, возможно, это проблема с памятью (например, swap)? Потому что кажется, что ваше время выполнения увеличивается нелинейно. –

+0

Это просто предсказание, которое происходит медленно, или же обучение? Вы просто пытаетесь предсказать один пример или многие? –

+0

Прогноз очень медленный, это основная проблема. Раньше тренировка была медленной, но скорость увеличивалась после того, как мы удалили категориальные функции. –

ответ

0

Увеличение количества деревьев решений, безусловно, увеличит время прогнозирования, поскольку экземпляр проблемы должен пройти через все деревья. Но сокращение этого не подходит для точности прогноза. Вы должны изменить этот параметр (количество деревьев решений) и найти оптимальное значение. Вот почему он называется гиперпараметром. Параметры Hyper сильно зависят от характера ваших данных и атрибутов. Возможно, вам придется изменять и другие гипер-параметры, по одному, и достичь глобального оптимума.

Также, когда вы говорите, время прогноза, вы включаете время для загрузки модели! Если это так, я думаю, что время модели не должно учитываться для времени прогнозирования. Это только накладные расходы для загрузки вашей модели и подготовки приложения для прогнозирования.

 Смежные вопросы

  • Нет связанных вопросов^_^