2017-01-30 8 views
1

Дать свою word2vec модель к S3 следующим образом:Pyspark случайно не в состоянии написать tos3

model.save(sc, "s3://output/folder") 

Я не делаю это без проблем, как правило, так не AWS проблемы учетных данных, но я случайно получаю следующее сообщение об ошибке.

17/01/30 20:35:21 WARN ConfigurationUtils: Невозможно создать каталог для временных файлов с надлежащего разрешения:/mnt2/s3 java.nio.file.AccessDeniedException:/mnt2 в sun.nio.fs. UnixException.translateToIOException (UnixException.java:84) at sun.nio.fs.UnixException.rethrowAsIOException (UnixException.java:102) at sun.nio.fs.UnixException.rethrowAsIOException (UnixException.java:107) на солнце. nio.fs.UnixFileSystemProvider.createDirectory (UnixFileSystemProvider.java:384) в java.nio.file.Files.createDirectory (Files.java:674) в java.nio.file.Files.createAndCheckIsDirectory (Files.java:781) в java.nio.file.Files.createDirectories (Files.java:767) at com.amazon.ws.emr.hadoop.fs.util.ConfigurationUtils.getTestedPaths (ConfigurationUtils.java:216) at com.amazon. ws.emr.hadoop.fs.s3n.S3NativeFileSystem.initialize (S3NativeFileSystem.java:447) at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize (EmrFileSystem.java:111) at org.apache. hasoop.fs.FileSystem.createFileSystem (FileSystem.java:2717) at org.apache.hadoop.fs.FileSystem.access $ 200 (FileSystem.java:93) at org.apache.hadoop.fs.FileSystem $ Cache.getInternal (FileSystem.java:2751) на org.apache.hadoop.fs.FileSystem $ Cache.get (FileSystem.java:2733) на org.apache.hadoop.fs.FileSystem.get (FileSystem.java:377) t org.apache.hadoop.fs.Path.getFileSystem (Path.java:295) на org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter. (FileOutputCommitter.java:113) на org.apache.hadoop. mapreduce.lib.output.FileOutputCommitter. (FileOutputCommitter.java:88) at org.apache.parquet.hadoop.ParquetOutputCommitter. (ParquetOutputCommitter.java:41) at org.apache.parquet.hadoop.ParquetOutputFormat.getOutputCommitter (ParquetOutputFormat. java: 339)

Пробовали в разных кластерах и не смогли понять это. Это известная проблема с pyspark?

ответ

1

Возможно, это связано с SPARK-19247. На сегодняшний день (Spark 2.1.0) авторы ML перераспределяют все данные на один раздел, что может привести к сбоям в случае больших моделей. Если это действительно является источником проблемы, вы можете попытаться исправить ваш дистрибутив вручную, используя code from the corresponding PR.

 Смежные вопросы

  • Нет связанных вопросов^_^