Я использую Спарк Streaming, чтобы принести твиты из твиттера, создавая StreamingContext как: val ssc = new StreamingContext("local[3]", "TwitterFeed",Minutes(1))
Спарк Streaming: Регистрация Dstream партии в одну выходную папку
и создание щебет потока как:
val tweetStream = TwitterUtils.createStream(ssc, Some(new OAuthAuthorization(Util.config)),filters)
затем сохраняя его как текстовый файл
tweets.repartition(1).saveAsTextFiles("/tmp/spark_testing/")
и проблема в том, что твиты сохраняются в виде папок, основанных на пакетном времени, но я нужны все данные каждой партии в одной папке.
Есть ли обходной путь для этого?
Благодаря
Спасибо, Холден, сохранил мой день ... –
Могу ли я сохранить DF как текстовый файл? Как я вижу, тип по умолчанию - это паркет. Каким должен быть источник? –
@Holden, @HussainShaik У меня был тот же вопрос и я использовал ваше решение, но продолжаю получать ошибку - не найден: путь значения '[error] df.save (" com.databricks.spark.csv ", SaveMode.Append, Карта («путь» -> путь.toString)). Любой способ исправить это? – serendipity