При использовании PySpark для загрузки нескольких файлов JSON с S3 я получаю сообщение об ошибке, а Spark-запрос завершается с ошибкой, если файл отсутствует.Ошибка выполнения PySpark при загрузке нескольких файлов, а одна отсутствует
вызвано следующими причинами: org.apache.hadoop.mapred.InvalidInputException: Входной шаблон S3N: //example/example/2017-02-18/*.json матчи 0 файлов
Это как Я добавляю 5 последних дней на работу с PySpark.
days = 5
x = 0
files = []
while x < days:
filedate = (date.today() - timedelta(x)).isoformat()
path = "s3n://example/example/"+filedate+"/*.json"
files.append(path)
x += 1
rdd = sc.textFile(",".join(files))
df = sql_context.read.json(rdd, schema)
Как я могу заставить PySpark игнорировать недостающие файлы и продолжить работу?