2017-02-20 23 views
0

У меня есть куча таблиц в Hive, хранящихся как ORC. Я хочу индексировать их данные в коллекции SolrCloud.Поддержка Apache Solr для формата файла ORC

Есть ли поддержка для индексирования данных, хранящихся в формате ORC в Solr? Я искал googled, но ничего не вышло.

ответ

1

Похоже, вы хотите SolR для чтения данных из определенного формата файла Hive.

Вы можете посмотреть на проблему с другой способ т.е. использовать улей для записи данных в Solr - и, таким образом, пусть Hive заботиться о сложности фактического формата входного файла (будь ORC, паркет, AVRO, независимо - даже файлы данных HBase).

В LucidWorks GitHub repo вы найдете проект с пометкой hive-solr. Взгляни.

+0

Спасибо Сэму, мне нужна другая точка зрения. – sergionsk8

0

Я согласен с ответом Самсона.

В любом случае, я не полностью удовлетворен этим решением. Фактически, теперь мне все еще нужно создать внешнюю таблицу, вручную объявив все поля в исходной таблице. С точки зрения операций он не отличается от создания новой таблицы (сохраненного текстового файла объявлений), начиная с оригинальной, индексируя новые текстовые файлы и, наконец, отбрасывая их (конечно, это может быть проблемой для очень больших таблиц, что не мой случай).

Будучи ORC самоописывающимся форматом, было бы здорово, если Solr будет читать имена полей и данные непосредственно из сжатых файлов.

+0

Ну, проект ORC теперь поставляется с API-интерфейсом ядра Java (начиная с V1.1 - июнь 2016 года) _ => cf. введите https://orc.apache.org/docs/core-java.html и JavaDoc по адресу https://orc.apache.org/api/orc-core/index.html?org/apache/orc/Reader. html => вы можете попробовать немного развития DIY. –