2014-09-18 3 views
1

У меня есть 2 вида данных -Является ли это прецедентом для Spark/Apache Drill?

1) Schemaless (не совсем схематично, но столбцы продолжают расти с течением времени, и мы не хотим, чтобы наши задания на загрузку/публикацию менялись при изменении схемы). Эти данные сейчас хранятся в хранилище ключей. Количество ключей составляет около 1000. Число пар составляет около 700 миллионов

2) Таблицы РСУБД - набор таблиц, каждый из которых содержит миллионы строк.

Мне нужно создать хранилище данных, которое позволяет аналитику (желательно с использованием SQL) для всех вышеперечисленных данных. Я рассматривал некоторые решения этой проблемы и чувствовал, что подобные Spark и Apache Drill могут решить эту проблему. Это правильный вариант использования Spark-Shark? Какие еще хранилища данных/решения можно использовать в этом случае - Cassandra? MongoDB?

Спасибо.

ответ

0

В качестве вкладчика для сверления я бы поставил ответы на основе возможностей дрели -
1. Да. Сверло хорошо подходит для файлов без схем и оно идентифицирует схему файлов «на лету».
2. У Drill уже есть возможность запросить Mongo и HBase. РСУБД и Кассандра еще нет, но в дорожной карте.