Я читаю в csv, используя функциональность pandas chunks. Он работает, за исключением того, что я не могу сохранить заголовки. Есть ли способ/вариант для этого? Здесь приведен пример кода:pyspark чтение csv using pandas, как сохранить заголовок
import pyspark
import pandas as pd
sc = pyspark.SparkContext(appName="myAppName")
spark_rdd = sc.emptyRDD()
# filename: csv file
chunks = pd.read_csv(filename, chunksize=10000)
for chunk in chunks:
spark_rdd += sc.parallelize(chunk.values.tolist())
#print(chunk.head())
#print(spark_rdd.toDF().show())
#break
spark_df = spark_rdd.toDF()
spark_df.show()
для чтения заголовков, '' х = pd.read_csv (имя файла , nrows = 1) '' должно быть достаточно? – muon
Я согласен с этим произвольным, не имеет значения, если вы возьмете 1,5 или 10 строк, пока вы берете по крайней мере один. –