hdfs

2зной

1ответ

pyspark JOB завершается с ошибкой «Нет свободного места на устройстве»

Я нахожусь в автономном кластере Master + 3WorkerNodes. При запуске задания (BIG) у меня возникает проблема «Нет места на устройстве». Я пытался получать помощь Why does a job fail with "No space left

0зной

2ответ

Как переместить файлы gzip в hdfs

Im new to hadoop. Необходимо перемещать файлы из EDS (источника данных предприятия), где мы ежедневно и ежемесячно получаем данные от внешних и внутренних поставщиков. В eds у нас есть файлы gzip. Как

0зной

1ответ

Hadoop с несколькими командами замедления

Я пытаюсь скопировать большой объем данных (несколько тысяч файлов, добавляющих до 19 ТБ) в мой кластер Hadoop. Я бегу цикл Баш над подмножествами файлов и более петель я бегу, тем медленнее все, копи

2зной

1ответ

Spark Streaming: source HBase

Возможно ли установить установку искрового потока для отслеживания таблицы HBase и читать новые/обновленные строки в каждой партии? В блоге here говорится, что файлы HDFS попадают под поддерживаемые и

0зной

2ответ

Query hdfs с Spark Sql

У меня есть файл csv в hdfs, как я могу запросить этот файл с помощью spark SQL? Например, я хотел бы сделать отборный запрос на специальных колоннах и получить результат, чтобы хранить снова к Hadoop

1зной

1ответ

Как файлы HDFS раздела Spark?

Если у нас есть несжатые 320 блоков файлов HDFS, хранящихся на кластере 16 узлов данных. Каждый узел 20 блоков, и если мы используем искру, чтобы прочитать этот файл в РДУ (без явной передачи numParti

4зной

3ответ

Python: сохранить кадр данных pandas в файл паркета

Можно ли сохранить рамку данных pandas непосредственно в файл паркета? Если нет, то какой будет предлагаемый процесс? Цель состоит в том, чтобы отправить файл паркета в другую команду, в которой они м