Просто интересно, работает ли предикат Parquet также на S3, а не только на HDFS. В частности, если мы используем Spark (без EMR).- предикат Parquet работает на S3, используя Spark non EMR?
Дальнейшие разъяснения могут быть полезны, поскольку это может включать понимание распределенной файловой системы.
Согласно Эмили Curtin на Спарк Summit, это зависит от «файловой системы» (в данном случае хранилище объектов), так как S3 не поддержка произвольного доступа. https://youtu.be/_0Wpwj_gvzg?t=1307 – andresp
Спасибо! И еще один подтвержденный ответ также говорит, что я неправ. Я снова просмотрел код в Spark 2.2.0, и он все еще не зависит от файловой системы. Но это может косвенно зависеть от этого. –
Но у S3 есть случайный доступ: http://docs.aws.amazon.com/AmazonS3/latest/API/RESTObjectGET.html#ExampleGetRangeRequestHeaders И Hortonworks рассказывает об отключении фильтра на S3: https: //hortonworks.github. io/hdp-aws/s3-spark/index.html # чтение-орк-и-паркет-наборы данных –