Я импортирую данные из Федерального резервного экономического набора данных API. Каждый запрос возвращает ежедневный, еженедельный, ежемесячный или ежегодный временные ряды. Моя конечная цель - сделать выбор переменных и построить байесовскую модель, которая использует выбранные временные ряды в качестве предикторов для определенного временного ряда. Каков наилучший способ структурирования этих данных в кадре данных?Лучший способ компоновки данных TimeSeries в Spark DataFrame - Scala
В соответствии с этим documentation Я бы подумал, что мои данные должны быть изложены в «Экстантах» format. Однако мои попытки покончить с этим все в конечном итоге являются чрезмерно медленными после попытки присоединиться к тому, что составляет более 200 000 столбцов. Другой формат из приведенной ниже документации - это «TimeSeriesRDD», но импортируемый временной ряд часто не имеет перекрытия дат и варьируется от 1930 до настоящего времени. Итак, каков наилучший способ структурирования этих данных в кадре данных?
Пример того, как загрузить данные из FRED в рекомендованный вами формат, будет очень признателен!
Вот мой первый подход, который непозволительно медленно
for (seriesId <- allSeries) {
val series = loadSeriesFromAPI(seriesId, spark)
allSeries = allSeries.join(series, allSeries.col("date") === series.col(seriesId + "_date"), "outer")
allSeries = allSeries.drop(seriesId + "_date")
}
И мой второй, что я должен загрузить в данных 1 столбец и 1 строку в то время
for(row <- series) {
val insertStr = "%s, %g".
format(
row.asInstanceOf[Map[String, Date]]("date").asInstanceOf[String],
parseDoubleOrZero(row.asInstanceOf[Map[String, Double]]("value").asInstanceOf[String])
)
}
Благодарим вас за понимание! Мне нравится, куда вы идете, и у вас есть пара вопросов. Во-первых, скажем, я хотел использовать случайный алгоритм на основе леса, чтобы сузить число столбцов. Как я мог это сделать без проглатывания всех данных в кадре данных? Во-вторых, нормально ли хранить большое количество данных в пакетах, похоже, что запросы данных будут намного сложнее? – jskracht