Я только начинаю с Pyspark и хочу сохранить файл как csv вместо текстового файла. Я попытался с помощью пара ответов, которые я нашел на переполнение стека, такие какЗапись RDD в csv с разделенными столбцами
def toCSVLine(data):
return ','.join(str(d) for d in data)
, а затем
rdd = lines.map(toCSVLine)
rdd.saveAsTextFile("file.csv")
Он работает в том, что я могу открыть его в Excel, однако вся информация введена в колонке А в электронной таблице. Я хотел бы иметь возможность помещать каждый столбец в rdd (пример будет («ID», «рейтинг») в отдельный столбец в excel, поэтому идентификатор будет в столбце A, а рейтинг будет в столбце B. Будет ли способ сделать это?
Это действительно сработало, но есть ли способ заставить его игнорировать запятые внутри кавычек? Он разделил строку текста, которую мне нужно объединить в несколько столбцов, потому что в ней есть некоторые запятые. – tclaw46
Возможно, вы можете использовать другой разделитель с .option ("delimiter", "|") и использовать этот разделитель при открытии Excel – Insilico
Хорошо, мне удалось заставить его работать с этим кодом. Спасибо за помощь. – tclaw46