Я использую HDP 2.4.2 Я хочу подключить Spark к HAWQ для приема данных.Интеграция Spark + HAWQ (HDP 2.4.2)
Пожалуйста, дайте мне знать, если есть какой-либо рекомендуемый/правильный подход. В настоящее время я использую postgress драйвер jdbc для подключения искры с HAWQ. Я столкнулся с такими проблемами, как
-DataFrame автоматически создает таблицу в HAWQ, если таблица отсутствует.
-Приглашение приема происходит слишком медленно.
-Интересно показывает ошибки, такие как "org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"
.
Спасибо Кайл за ответ. Какой был бы лучший подход для вставки огромных наборов искры в HAWQ? – nilesh1212
Если вы хотите избежать промежуточной персистентности данных в HDFS, я считаю, что лучше всего написать результаты от Spark in до Kafka и использовать Spring-модуль DataList для gpfdist для загрузки пакетов в HAWQ. Самое простое решение - просто написать набор данных Spark для HDFS в виде сжатого разделительного формата и прочитать его параллельно с PXF. –
Kyle Я думаю, что Spring Cloud Dataflow будет излишним для этого случая использования. Не можем ли мы использовать JDBC для вставки огромных наборов данных искры в HAWQ? – nilesh1212