Большинство функций интеллектуального анализа данных и машинного обучения для MATLAB содержатся в Статистическом наборе инструментов (в последних версиях, называемом «Статистика и машинное обучение»). Чтобы включить распараллеливание, вам также понадобится Parallel Computing Toolbox, и чтобы эта распараллелизация выполнялась в кластере HPC, вам необходимо установить MATLAB Distributed Computing Server в кластере.
Существует множество способов параллелизировать задачи интеллектуального анализа данных - например, вы можете распараллелить отдельную задачу обучения или распараллеливать перекрестную проверку или распараллеливать несколько задач обучения по нескольким наборам данных.
Первое возможно для некоторых, но не для всех алгоритмов интеллектуального анализа данных в панели инструментов статистики. MathWorks постепенно вводят это по частям. Например, kmeans
распараллелен, и существует распараллеливаемый алгоритм для пакетных деревьев решений, но я считаю, что обучение SVM в настоящее время не распараллеливается. Вам нужно будет изучить документацию для панели инструментов статистики, чтобы узнать, нужны ли требуемые алгоритмы в списке.
Возможны два вторых варианта. Функциональность в наборе инструментов статистики для кросс-валидации (и самонастройка, джек-ножение) распараллеливается, как и некоторые алгоритмы выбора функций. А для того, чтобы распараллелить выполнение нескольких заданий по нескольким наборам данных, вы можете использовать функциональные возможности Parallel Computing Toolbox (например, parfor
или параллельный цикл) для их итерации по ним.
Кроме того, предстоящий выпуск MATLAB R2015b (в сентябре) будет включать функции статистики с поддержкой графического процессора, обеспечивающие дополнительные ускорения.
Как насчет использования известных параллельных структур обработки, таких как Vowpal Wabbit, Spark, Mahout, H2O, Oryx и т. Д.? Сообществу выпускника quickminer несколько лет. ** Я бы не стал запираться в MATLAB **. Их лицензии чертовски дороги, и ваши ученики больше не смогут использовать их на своих ноутбуках. –
Если не было проблем с лицензиями MATLAB, вы бы предпочли другие структуры? – mark
Да. Я верю в открытый исходный код и открытые исследования. Немногие будут использовать ваши исследования, если вы не сделаете их доступными для всех как открытые, для открытых платформ. Именно поэтому R и Python находятся на подъеме, и MATLAB падает. –