2014-09-12 6 views
0

У меня есть 7 очень больших файлов gz, у каждого есть данные 10G Bytes, а также у меня есть 100 маленьких файлов bzip2, каждый из которых имеет только 10 Мбайт. И у меня есть 10 машин в кластерах hadoop, каждая машина имеет 8 ядер. Когда я начинаю работу по сокращению карты, 100 маленьких файлов bzip2 будут завершены за 1 минуту. И 7 больших файлов gz займут очень много времени. Мой вопрос: почему файлы 7 gz попадают только на одну машину, хотя у меня там 10 машин, что одна машина работает очень тяжело, а другие 9 машин почти ничего не делают. Мне это интересно, и я попытался настроить mapred.tasktracker.map.tasks.maximum = 1, это означает, что одновременно будет выполняться только одна задача на одном компьютере, но после установки этого я все же получил 7 файлов, работающих на одном машина, т.е. 7 карт (jvms), работающих на одной машине в одно и то же время.несколько файлов gz переходят на один узел хаоса

Пожалуйста, помогите мне развернуть 7 карт на 7 машинах, а не на одной машине, спасибо заранее!

+0

См. Http://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files Файлы Gzip не разделяются –

+0

Это не отвечает, почему семь файлов gzip не попадают на семь машин. –

ответ

0

Возможно, файлы находятся на неуравновешенной HDFS или локальной или одной FS? Возможно, вам нужно запустить перераспределение hdfs для распространения файлов по кластеру.

 Смежные вопросы

  • Нет связанных вопросов^_^