Ниже приведен скрипт python, который я использую для записи в HDFS. RDD - это пара RDD. Скрипт отлично работает, но он создает запись как кортеж в HDFS. Можно удалить кортеж и просто создать записи с разделенной запятой в HDFS.Сохраните файл в HDFS с пары RDD
import sys
from pyspark import SparkContext
if len(sys.argv) < 2:
print 'Insufficient arguments'
sys.exit()
sc = SparkContext()
initialrdd1 = sc.textFile(sys.argv[1])
finalRDD1 = initialrdd1.map(lambda x:x.split(',')).map(lambda x :(x[1],x[0])).sortByKey()
print finalRDD1.getNumPartitions()
finalRDD1.saveAsTextFile('/export_dir/result3/')
файл, хранящий в HDFS в формате ниже
(u'Alpha', u'E03')
(u'Beta', u'E02')
(u'Gamma', u'E05')
(u'Delta', u'E09')
Хотя этот код может помочь ответить на вопрос, добавление некоторых объяснений поможет сделать ответ более полезным, особенно если он появится в поиске. – paisanco
Я думал, что это было незначительное и самоочевидное предложение, но, конечно, хорошо. Обновлено. –