2016-10-18 7 views
1

Я использую HDP 2.4.2 Я хочу подключить Spark к HAWQ для приема данных.Интеграция Spark + HAWQ (HDP 2.4.2)

Пожалуйста, дайте мне знать, если есть какой-либо рекомендуемый/правильный подход. В настоящее время я использую postgress драйвер jdbc для подключения искры с HAWQ. Я столкнулся с такими проблемами, как

-DataFrame автоматически создает таблицу в HAWQ, если таблица отсутствует.

-Приглашение приема происходит слишком медленно.

-Интересно показывает ошибки, такие как "org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists".

ответ

1

Пожалуйста, смотрите этот пример проекта Scala для чтения данных HAWQ с помощью искрового РДУ: https://github.com/kdunn926/sparkHawq

Если вы надеетесь, чтобы прочитать данные, сгенерированные Спарк с HAWQ, лучшим вариантом будет написать HDFS от искры и использовать ПФЛ читать его с помощью HAWQ. Смотрите документацию здесь: http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html

+0

Спасибо Кайл за ответ. Какой был бы лучший подход для вставки огромных наборов искры в HAWQ? – nilesh1212

+0

Если вы хотите избежать промежуточной персистентности данных в HDFS, я считаю, что лучше всего написать результаты от Spark in до Kafka и использовать Spring-модуль DataList для gpfdist для загрузки пакетов в HAWQ. Самое простое решение - просто написать набор данных Spark для HDFS в виде сжатого разделительного формата и прочитать его параллельно с PXF. –

+0

Kyle Я думаю, что Spring Cloud Dataflow будет излишним для этого случая использования. Не можем ли мы использовать JDBC для вставки огромных наборов данных искры в HAWQ? – nilesh1212