В настоящее время я использую R для проведения анализа.R Преобразование больших файлов CSV в HDFS
У меня есть большое количество файлов CSV с теми же заголовками, которые я хотел бы обработать с использованием R. Я изначально прочитал каждый файл последовательно в R и строку, связав их вместе, прежде чем проводить анализ вместе.
Количество файлов, которые необходимо читать, растет, и поэтому хранение их в памяти для выполнения манипуляций с данными становится неосуществимым.
Я могу объединить все CSV-файлы вместе без использования R и, следовательно, не хранить его в памяти. Это оставляет огромный файл CSV, чтобы преобразовать его в HDFS, чтобы иметь возможность провести соответствующий анализ? И в дополнение к этому ... или было бы целесообразнее провести анализ каждого файла csv отдельно, а затем объединить его в конце?
Я думаю, что, возможно, распределенная файловая система и использование кластера машин на амазонке для эффективного анализа.
Рассматривая rmr
here, он преобразует данные в HDFS, но, по-видимому, это не удивительно для действительно больших данных ... как бы преобразовать csv таким образом, чтобы обеспечить эффективный анализ?
Что вы подразумеваете под «преобразованием его в HDFS»? Ваши '.csv' сидят на HDFS или вашей локальной файловой системе? Или вы просто пытаетесь использовать обработку MapR? Если вы можете самостоятельно обрабатывать '.csv', сделайте это. – mlegge
Вы не можете преобразовать формат в файловую систему, это вздор. – piccolbo