У меня есть таблица Hive X, которая имеет несколько файлов на HDFS. Местоположение таблицы X на HDFS есть/data/hive/X. Файлы:Spark HiveContext: Таблицы с несколькими файлами на HDFS
/data/hive/X/f1
/data/hive/X/f2
/data/hive/X/f3 ...
Теперь, я бегу следующие команды:
df=hiveContext.sql("SELECT count(*) from X")
df.show()
Что происходит внутри? Каждый файл рассматривается как отдельный раздел и обрабатывается отдельным узлом, а затем результаты сопоставляются?
Если да, есть ли способ проинструктировать Spark, чтобы загрузить все файлы в 1 раздел, а затем обработать данные?
Заранее спасибо.
Каков формат файлов, только CSV/TSV? Вы также можете открыть интерфейс Spark и взглянуть на визуализацию DAG. –
Hi Fokko - это текстовые файлы, разделенные каналами. – user3031097