2016-07-21 5 views
0

Этот код отлично работает, когда я устанавливаю мастер на localhost. Проблема возникает, когда я отправляю в кластер с двумя рабочими узлами.Ошибка модуля в многоузловом искровом задании в облачном кластере Google

Все машины имеют такую ​​же версию python и пакетов. Я также установил путь для указания на нужную версию python, то есть 3.5.1. когда я отправляю свою искру на мастер-сессию ssh. Я получаю следующее сообщение об ошибке -

py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 4 times, most recent failure: Lost task 0.3 in stage 2.0 (TID 5, .c..internal): org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/hadoop/yarn/nm-local-dir/usercache//appcache/application_1469113139977_0011/container_1469113139977_0011_01_000004/pyspark.zip/pyspark/worker.py", line 98, in main command = pickleSer._read_with_length(infile) File "/hadoop/yarn/nm-local-dir/usercache//appcache/application_1469113139977_0011/container_1469113139977_0011_01_000004/pyspark.zip/pyspark/serializers.py", line 164, in _read_with_length return self.loads(obj) File "/hadoop/yarn/nm-local-dir/usercache//appcache/application_1469113139977_0011/container_1469113139977_0011_01_000004/pyspark.zip/pyspark/serializers.py", line 419, in loads return pickle.loads(obj, encoding=encoding) File "/hadoop/yarn/nm-local-dir/usercache//appcache/application_1469113139977_0011/container_1469113139977_0011_01_000004/pyspark.zip/pyspark/mllib/init.py", line 25, in import numpy ImportError: No module named 'numpy'

Я видел другие сообщения, где люди не имели доступа к своим рабочим узлам. Я делаю. Я получаю то же сообщение для другого рабочего узла. не уверен, что мне не хватает настроек среды. Любая помощь будет высоко ценится.

+0

попробовал установить numpy? http://stackoverflow.com/questions/1273203/cant-import-numpy-in-python –

+0

Да, я установил последнюю numpy на всех узлах. – sumoka

ответ

0

Не уверен, что это квалифицируется как решение. Я отправил ту же работу, используя dataproc на платформе google, и она работала без каких-либо проблем. Я считаю, что лучший способ запустить задания в google-кластере - через утилиты, предлагаемые на платформе Google. Утилита dataproc, похоже, устраняет любые проблемы, связанные с окружающей средой.