У меня есть 2 вида данных -Является ли это прецедентом для Spark/Apache Drill?
1) Schemaless (не совсем схематично, но столбцы продолжают расти с течением времени, и мы не хотим, чтобы наши задания на загрузку/публикацию менялись при изменении схемы). Эти данные сейчас хранятся в хранилище ключей. Количество ключей составляет около 1000. Число пар составляет около 700 миллионов
2) Таблицы РСУБД - набор таблиц, каждый из которых содержит миллионы строк.
Мне нужно создать хранилище данных, которое позволяет аналитику (желательно с использованием SQL) для всех вышеперечисленных данных. Я рассматривал некоторые решения этой проблемы и чувствовал, что подобные Spark и Apache Drill могут решить эту проблему. Это правильный вариант использования Spark-Shark? Какие еще хранилища данных/решения можно использовать в этом случае - Cassandra? MongoDB?
Спасибо.