Мои данные о HDFS приведены в формате файла последовательности. Я использую PySpark (Спарк 1.6) и пытается достичь 2 вещи:Получить путь к файлу HDFS в PySpark для файлов в формате последовательного файла
путь данных содержит метку времени в формате гггг/дд/чч/мм, что я хотел бы привести в самих данных. Я попробовал SparkContext.wholeTextFiles, но я думаю, что это может не поддерживать формат файла Sequence.
Как мне разобраться с вышеописанной точкой, если я хочу хруст данных в течение дня и хочу ввести дату в данные? В этом случае я бы загружал данные типа yyyy/mm/dd/* format.
Цените любые указатели.
Спасибо user6910411. Я нахожусь на Spark 1.6 и использую pyspark. – Arnkrishn