2016-08-13 2 views
0

У меня есть набор данных из 20 000 000 строк. Каждая строка содержит 30 столбцов.Разделение дерева Регрессионная модель, основанная на уникальных значениях одного столбца

Один из столбцов содержит 7000 уникальных номеров продуктов.

Каждая строка содержит значение стоимости единицы, которое я бы хотел предсказать, используя все столбцы, отличные от стоимости единицы.

Я хотел бы создать уникальное дерево решений или уникальную ветвь дерева решений для моделирования данных для каждого номера продукта.

В основном разделение строк для каждого номера продукта и моделирование каждого номера продукта изолированно.

Я хотел бы обучить единственную модель в Azure, чтобы сделать это, если это возможно.

ответ

0

Вы должны будете использовать создать модуль R с помощью сценария поезда с использованием lapply для создания нескольких моделей

обучения сценария является то, как показано ниже:

model <- 
    lapply(seq(max(dataset$ProductNumber)), 
       function(j) 
        if(nrow(dataset[dataset$ProductNumber==j,])>0) 
        { 
         multinom(UnitCost~.,data=dataset[dataset$ProductNumber==j,]) 
        } 


     ) 

Затем вы можете использовать прогностический скрипт что-то вроде ниже

probabilities <- predict(model[[dataset$ProductNumber]], dataset, type="probs") 
scores<-data.frame(probabilities)