2015-11-13 6 views
1

У меня есть журналы, которые будут выглядеть следующим образом:Apache Drill - использование нескольких разделителей в плагине для хранения файлов?

value1 value2 "value 3 with spaces" value4 

с помощью:

"formats": { 
    "csv": { 
     "type": "text", 
     "delimiter": " " 
    } 
    } 

для плагинов хранения, ограничивающую по "" дает мне следующие столбцы:

columns[0] | columns[1] | columns[2] | columns[3] | columns[5] | columns[6] | columns[7] 
value1  | value2  | value  | 3   | with  | spaces  | value4 

, что я» d нравится:

columns[0] | columns[1] | columns[2]    | columns[3] 
value1  | value2  | value 3 with spaces  | value4 
+0

Там есть функция направлена ​​к выпуску в ближайшее время (мой образованная догадка - декабрь), которая должна работать на вас: https://issues.apache.org/jira/browse/DRILL-3423 – catpaws

+0

@catpaws разрешено в 1.3? –

+0

Извините, это не в 1.3. Цель DRILL-3423 - 1.4. – catpaws

ответ

0

Насколько я знаю, в Drill нет возможности пропустить разделители. Однако, если переменная 3 является единственным, который может иметь те «» между ними, обходной путь я могу думать:

  • структура ваш первый запрос, так что столбцы [3] всегда последний, Ex

выбрать столбцы [0], столбцы [1], столбцы [2], столбцы [4], столбцы [3] из dfs.default./path/to/your/file;

  • использовать команду CONCATENATE(), чтобы создать переменную в отдельной колонке.

Другим способом для этого потребуется изменить разделитель по умолчанию в файле, прежде чем сверлить его. В зависимости от того, где вы глотаете свои данные, это может быть осуществимо или нет.

удачи, и если вы ищете больше вещей на дрель, не забудьте проверить страницу сообщества MapR на дрель, которая имеет примеры кода, которые могут быть полезны: https://community.mapr.com/community/products/apache-drill

 Смежные вопросы

  • Нет связанных вопросов^_^