В нашей компании мы используем HDFS. Пока все работает, и мы можем извлекать данные с помощью запросов.Статистика с данными HDFS
В прошлом я много работал с проектом R. Это всегда было полезно для моих анализов. Поэтому я проверил Project R и поддержку HDFS (rbase, rhdfs, ...).
Тем не менее, я немного смущен, так как нашел множество учебных пособий, где они анализируют простые данные, сохраненные в файлах CSV. Не поймите меня неправильно. Это нормально, но я хочу спросить, есть ли возможность писать запросы, извлекать данные и выполнять некоторую статистику за один проход.
Или другими словами: Когда мы говорим о статистике данных, хранящихся в HDFS, как вы справляетесь с этим?
Большое спасибо, и, надеюсь, некоторые из вас могут помочь мне разобраться в плюсах и минусах для моего вопроса.
Все лучшее - Peter