Прежде всего обратите внимание, что друид использует данные таймсеров, поэтому каждая строка ваших данных должна иметь временную метку. Если это возможно, читайте дальше.
Вывод данных в CSV или TSV. Это два из форматов, поддерживаемых для пакетного приема. Так что ваши данные будут выглядеть примерно так:
2013-08-31T01:02:33Z,"someData","true","true","false","false",57,200,-143
2013-08-31T03:32:45Z,"moreData","false","true","true","false",459,129,330
...
Тогда вы можете создать index task, который имеет шланговой раздел, в котором указать местоположение файла, формат и столбцы:
"firehose" : {
"type" : "local",
"baseDir" : "my/directory/",
"filter" : "my.csv",
"parser" : {
"timestampSpec" : {
"column" : "timestamp"
},
"data" : {
"type" : "csv",
"columns" : ["timestamp","data1","data2","data3",...,"datan"],
"dimensions" : ["data1","data2","data3",...,"datan"]
}
}
}
Обратите внимание на специальную обработку, предоставленную столбцу временной метки.
Теперь запустите службу индексирования (Druid docs содержит информацию о том, как запустить кластер, который вам понадобится) и подайте ему задачу, как описано в разделе Batch Ingestion Using the Indexing Service. Данные будут поступать и обрабатываться в сегменты друидов, которые вы можете запросить.
Любой, кто нуждается в информации о сравнении производительности между MySQL и Друидом, см. В [блоге на druid.io] (http://druid.io/blog/2014/03/ 12/партии-ingestion.html). – user766353