2016-03-02 2 views
0

пример, чтобы объяснить вопрос -hadoop - как будет вводиться форма разбиения, если файл имеет только одну запись, а размер файла больше размера блока?

У меня есть файл размером 500MB (input.csv)

файл содержит только одну строку (запись) в нем

так, как файл будет храниться в блоках HDFS и как будут вычисляться входные расщепления?

ответ

0

Вам, вероятно, придется проверить эту ссылку: How does Hadoop process records split across block boundaries? Обратите внимание на упомянутое «удаленное чтение».

Единственная запись, упомянутая в вашем вопросе, будет храниться на многих блоках. Но если вы используете TextInputFormat для чтения, то для обработки записи картографу необходимо выполнить удаленные чтения по блокам.

+0

спасибо ... полезно :) –