1
Я хочу построить классификационную модель в PySpark. Мой вклад в эту модель является результатом выбора запроса или представления из Hive или Impala. это любой способ включить этот запрос в сам код PySpark вместо сохранения результата в текстовом файле, подающем нашу модель.PySpark и HIVE/Impala
Большое спасибо за быстрый ответ. поэтому tableData будет моими входными данными для правильной модели? моя цель состоит в том, чтобы как только я запустил регрессионный код pyspark logit на ежедневной основе, моя модель регрессии должна работать, и данные для моей модели должны включать в себя последние обновленные записи в моем наборе данных (поезд и тест) –
@RRAMESHNAIK да данные таблицы будут непосредственными входными данными вашей модели. –
Спасибо, что так много Ракеша. еще одна вещь - мы должны преобразовать наши данные как право RDD. поэтому результат tableData.collect() - это необработанные данные или его уже RDD. я имею в виду, должен преобразовать его как RDD? –