Начиная с искры 2.0.1 У меня возникли вопросы. Я читал много документации, но до сих пор не удалось найти достаточное количество ответов:Spark 2.0 Dataset vs DataFrame
- В чем разница между
df.select("foo")
df.select($"foo")
- я правильно понимаю, что
myDataSet.map(foo.someVal)
является типичным и wi ll не конвертировать вRDD
, но оставаться в представлении DataSet/без дополнительных накладных расходов (производительность по 2,0.0)
- все другие команды, например. выберите, .. просто синтаксический сахар. Они не являются типичными, и вместо них можно использовать карту. Как я могу использовать
df.select("foo")
без указания карты?- Почему я должен использовать UDF/UADF вместо карты (при условии, что карта остается в представлении набора данных)?
Там это проект, который направлен на обеспечение большей безопасности типа для Спарк, оставаясь на эффективном пути выполнения: [typelevel/бескаркасная ] (https://github.com/typelevel/frameless) –