Я проникаю от Impala в SparkSQL, используя следующий код, чтобы прочитать таблицу:SparkSQL - Читать паркетный файл непосредственно
my_data = sqlContext.read.parquet('hdfs://my_hdfs_path/my_db.db/my_table')
Как вызвать SparkSQL выше, так что он может вернуть что-то вроде:
'select col_A, col_B from my_table'
Собирается ли сбор (или хорошая идея)? Потому что, если данные большие, мы не хотим собирать все драйверу? – Edamame
его просто пример использования sql. Это зависит от вас, как вы хотите его использовать. вы можете изменить запрос или сделать .take() также получить требуемые данные по драйверу –