2017-02-10 10 views
-1

В нашей компании мы используем HDFS. Пока все работает, и мы можем извлекать данные с помощью запросов.Статистика с данными HDFS

В прошлом я много работал с проектом R. Это всегда было полезно для моих анализов. Поэтому я проверил Project R и поддержку HDFS (rbase, rhdfs, ...).

Тем не менее, я немного смущен, так как нашел множество учебных пособий, где они анализируют простые данные, сохраненные в файлах CSV. Не поймите меня неправильно. Это нормально, но я хочу спросить, есть ли возможность писать запросы, извлекать данные и выполнять некоторую статистику за один проход.

Или другими словами: Когда мы говорим о статистике данных, хранящихся в HDFS, как вы справляетесь с этим?

Большое спасибо, и, надеюсь, некоторые из вас могут помочь мне разобраться в плюсах и минусах для моего вопроса.

Все лучшее - Peter

ответ

0

Вы хотели бы проверить Apache Hive и Apache Spark. Хотя есть много других вариантов, но я не уверен, спрашиваете ли вы, как работать с данными из hdfs, когда данные не передаются вам в файл.