0

До сих пор я использовал RapidMiner для некоторых задач по обработке данных и текста, но с увеличением объема данных возникают огромные проблемы с производительностью. AFAIK Расширения параллельной обработки RapidMiner доступны только для корпоративной версии - к сожалению, я ограничена версией сообщества.Поддерживает ли MATLAB параллелизацию контролируемых алгоритмов машинного обучения? Альтернативы?

Теперь я хочу передать задачи в высокопроизводительный кластер, используя MATLAB (академическая лицензия). Я не нашел никакой информации, которую поддерживает Parallel Computation Toolbox, например. SVM или KNN.

Поддерживает ли MATLAB или любые дополнительные библиотеки параллелизацию алгоритмов интеллектуального анализа данных?

+0

Как насчет использования известных параллельных структур обработки, таких как Vowpal Wabbit, Spark, Mahout, H2O, Oryx и т. Д.? Сообществу выпускника quickminer несколько лет. ** Я бы не стал запираться в MATLAB **. Их лицензии чертовски дороги, и ваши ученики больше не смогут использовать их на своих ноутбуках. –

+0

Если не было проблем с лицензиями MATLAB, вы бы предпочли другие структуры? – mark

+0

Да. Я верю в открытый исходный код и открытые исследования. Немногие будут использовать ваши исследования, если вы не сделаете их доступными для всех как открытые, для открытых платформ. Именно поэтому R и Python находятся на подъеме, и MATLAB падает. –

ответ

1

Большинство функций интеллектуального анализа данных и машинного обучения для MATLAB содержатся в Статистическом наборе инструментов (в последних версиях, называемом «Статистика и машинное обучение»). Чтобы включить распараллеливание, вам также понадобится Parallel Computing Toolbox, и чтобы эта распараллелизация выполнялась в кластере HPC, вам необходимо установить MATLAB Distributed Computing Server в кластере.

Существует множество способов параллелизировать задачи интеллектуального анализа данных - например, вы можете распараллелить отдельную задачу обучения или распараллеливать перекрестную проверку или распараллеливать несколько задач обучения по нескольким наборам данных.

Первое возможно для некоторых, но не для всех алгоритмов интеллектуального анализа данных в панели инструментов статистики. MathWorks постепенно вводят это по частям. Например, kmeans распараллелен, и существует распараллеливаемый алгоритм для пакетных деревьев решений, но я считаю, что обучение SVM в настоящее время не распараллеливается. Вам нужно будет изучить документацию для панели инструментов статистики, чтобы узнать, нужны ли требуемые алгоритмы в списке.

Возможны два вторых варианта. Функциональность в наборе инструментов статистики для кросс-валидации (и самонастройка, джек-ножение) распараллеливается, как и некоторые алгоритмы выбора функций. А для того, чтобы распараллелить выполнение нескольких заданий по нескольким наборам данных, вы можете использовать функциональные возможности Parallel Computing Toolbox (например, parfor или параллельный цикл) для их итерации по ним.

Кроме того, предстоящий выпуск MATLAB R2015b (в сентябре) будет включать функции статистики с поддержкой графического процессора, обеспечивающие дополнительные ускорения.

+0

Подвешены контролируемые деревьями решений. –

+0

Благодарим вас за подробный ответ! Проблема заключается в том, что в MATLAB параллельный алгоритм машинного обучения не распараллелен (kmeans относится к неконтролируемым алгоритмам машинного обучения) - http://de.mathworks.com/help/stats/quick-start-parallel-computing-for-statistics-toolbox .html. Таким образом, к сожалению, параллельное задание индивидуального обучения не представляется возможным в ближайшем будущем с MATLAB. Существуют ли библиотеки, которые поддерживают параллеллизацию отдельных задач обучения? Есть ли другие приложения, которые его поддерживают? – mark