У меня есть большой индексированный lzo-файл в HDFS, который я бы хотел прочитать в искровых информационных кадрах. Файл содержит строки json-документов.Чтение файла LZO строк json в Spark DataFrames
posts_dir='/data/2016/01'
posts_dir
имеет следующее:
/data/2016/01/posts.lzo
/data/2016/01/posts.lzo.index
следующие работы, но не использовать индекс и, следовательно, занимает много времени, потому что он использует только один картограф.
posts = spark.read.json(posts_dir)
Есть ли способ заставить его использовать индекс?