У меня есть файл csv объемом 10 ГБ, и я хочу обработать его в Hadoop MapReduce. У меня есть кластер из 15 узлов (Datanode), и я хочу максимизировать пропускную способность.Сжатый файл VS несжатый файл в mapreduce. который дает лучшую производительность?
Какой формат сжатия следует использовать? или текстовый файл без сжатия всегда даст мне лучший результат по сжатому текстовому файлу. объясните причину.
Я использовал несжатый файл, и это дало мне лучшие результаты по Snappy. Почему это так?
В зависимости от ваших данных. Некоторые данные могут быть сжаты очень хорошо, другие едва могут быть сжаты вообще. Я предлагаю вам попробовать несколько и найти, что лучше всего подходит для ваших данных. –