На свече оболочки я использую следующий код для чтения из файла CSVИзвлечет ли данные данных из внешнего источника на каждое действие?
val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the spark session
df.show()
Предполагая, что это отображает 10 строк. Если я добавлю новую строку в csv, отредактировав ее, вызовет ли df.show()
новую строку? Если это так, означает ли это, что датафрейм считывается из внешнего источника (в данном случае файла csv) для каждого действия?
Обратите внимание, что я не кэшировать dataframe ни я воссоздание dataframe с помощью искрового сессии
Я не последовал твоему последнему заявлению. Также не искры стараются сохранить rdd в памяти, если память доступна (даже если кеш() или persist() не вызываются)? Какая бы правильная ссылка на документацию могла объяснить это поведение подробно? –