Hy, В последние дни у меня была небольшая проблема.R - обработка данных и масштабируемый код
У меня есть набор данных транзакций с 1 миллионом строк и двумя столбцами (идентификатор клиента и идентификатор продукта), и я хочу преобразовать это в двоичную матрицу. Я использовал функцию изменения и распределения, но в обоих случаях я использовал 64 Мб RAM и Rstudio/R. Потому что я использую только 1 процессор, процесс занимает много времени Мой вопрос в том, что это новый крутой вперед в этом переходе между маленькими и большими данными? Кому я могу использовать больше процессора?
Я ищу, и я нашел пару решения, но мне нужна экспертиза мнение
1 - Использование Спарк R?
2 - Решение H20.ai? http://h2o.ai/product/enterprise-support/
3 - Революционная аналитика? http://www.revolutionanalytics.com/big-data
4 - перейти в облако? как Microsoft Light?
Если я нужен, я могу использовать виртуальную машину с большим количеством ядер .. но мне нужно знать, что это гладкий способ сделать эту сделку
Моя конкретная проблема
У меня есть эти данные. кадр (но с 1 миллиона строк)
Sell<-data.frame(UserId = c(1,1,1,2,2,3,4), Code = c(111,12,333,12,111,2,3))
и я сделал:
Sell[,3] <-1
test<-spread(Sell, Code, V3)
это работает с небольшим набором данных .. но с 1 миллионом строк это занимает много времени (12 часов) и идет вниз, потому что мой максимальный барабан равен 64 МБ. Какие-либо предложения?
Ваш вопрос является слишком широким и просит мнения (оба не по теме). Покажите свою актуальную проблему (с воспроизводимым примером), и кто-то может предложить жизнеспособную альтернативу. Вероятно, вы можете оставаться в ванили R без распараллеливания. – Roland
Hy Roland, спасибо за ваш комментарий. Я сейчас приведу пример. привет – Kardu