Я пытаюсь загрузить данные из файла csv в Hive. Я использую JAVA API искры для этого. Я хочу знать, как я могу загружать данные в куст, используя искровые информационные кадры.
Вот что я пытаюсь сделать это с помощью JSON:Как я могу загрузить данные csv в куст, используя Spark dataframes?
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SQLContext;
public class first {
public static void main (String[] args)
{
String inputFileName = "samples/big.txt" ;
String outputDirName = "output" ;
SparkConf conf = new SparkConf().setAppName("org.sparkexample.WordCount").setMaster("local");
JavaSparkContext context = new JavaSparkContext(conf);
@SuppressWarnings("deprecation")
SQLContext sc = new SQLContext(context);
DataFrame input = sc.jsonFile(inputFileName);
input.printSchema();
}
}
Но не знаю, как сделать это с помощью CSV-файла. Я имею некоторое представление о Spark-csv, предоставленном databricks.
Пожалуйста, дайте мне знать, как я могу это сделать.
какую версию искры вы используете? также ваша проблема, читая csv или помещая результирующий фреймворк в улей? –
вы можете использовать пакет spark-csv для чтения файлов csv в 'dataframe', а затем использовать его для загрузки в таблицу hive. https://github.com/databricks/spark-csv –
@AssafMendelson Spark version 1.6.0 –