Как только CSV загружается через read.csv
, довольно просто использовать multicore
, segue
и т. Д., Чтобы играть с данными в CSV. Тем не менее, чтение его в настоящее время довольно утомительно.R: Возможно ли распараллелить/ускорить чтение в 20-миллионной строке CSV в R?
Осознайте, что лучше использовать MYSQL и т.д. и т.п.
Предположим использование 8XL АМС кластера вычислительных экземпляр рабочего R2.13
функции следующим образом:
Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)
Любые мысли/идеи очень признателен.
Этот вопрос может быть вам интересен: http://stackoverflow.com/questions/9061736/faster-than-scan-with-rcpp –
Или этот, а также http://stackoverflow.com/questions/1727772/fast-reading-very-large-tables-as-dataframes-in-r –