2015-11-19 6 views
1

В моей лямбда-архитектуре я обсуждаю, следует ли использовать HDFS или Cassandra для хранения моих неизменных данных. Мне нужна Cassandra для обслуживания онлайн-запросов и т. Д., Поэтому это обязательная часть технического стека. Теперь я не хочу вводить новый инструмент (HDFS) в стек, если мне это не нужно. Поэтому мой вопрос: что я буду пропускать, если я не использую HDFS и не использую Cassandra для размещения моих неизменных данных.HDFS или Кассандра?

EDIT:

Я понимаю, HDFS является распределенной файловой системы и Кассандра NoSQL БД. Тем не менее, как поддержка репликации данных, так и поддержка записи с высокой пропускной способностью. Кроме того, Cassandra поддерживает низко скрытый поиск данных. Правильно ли я говорю, что HDFS не даст мне много усилий?

+1

HDFS - это распределенная файловая система, а не база данных. Я думаю, что «правильный» вопрос - «_HBase_ vs Cassandra?», А не «HDFS vs Cassandra»? –

+0

@MattBall Мне это известно. см. мое редактирование –

+0

Извините, я не вижу редактирования ...? –

ответ

0

Как я понимаю Вы пытаетесь прояснить свой Сервисный уровень вашей лямбда-архитектуры. Если это правда, вы хотите сохранить свои пакетные представления и представления в режиме реального времени в базе данных. И как я понимаю, у вас нет кластера Hadoop в вашем пакетном слое. И ваши партийные представления не были завершены в HDFS. На данный момент ваша архитектура находится за пределами HDFS. HBase - это распределенная база данных, ориентированная на столбцы, построенная поверх файловой системы Hadoop. Это проект с открытым исходным кодом и масштабируется по горизонтали. Если вы не хотите кластера хаопов, опустите HBase. Cassandra распределена База данных NoSQL (ориентирована на столбцы) и работает вне кластера Hadoop и HDFS. Если я правильно понимаю вашу архитектуру и ваши нужды, я думаю, что Cassandra лучше для вас.

Кроме того, вы можете получить краткую информацию об архитектуре Лямбда по этой ссылке; http://artofbigdata.blogspot.com.tr/2016/01/lambda-architecture.html

0

HDFS поддерживает различные форматы файлов для хранения. Например, файлы последовательности, Avro и Parquet и т. Д., Так что вы можете выбрать формат файла, подходящий для вашего приложения.

Также обратите внимание, что вы можете эффективно читать данные, используя SQL-подобные запросы.

Таким образом, в HDFS над Cassandra доступны разные модели данных для размещения данных.