Я использую spark 1.3.0, который снабжен CDH 5.4.0 vm Я пытаюсь запустить фрагмент кода для выполнения запросов на pyspark через JDBC Я не могу подключиться с помощью любого из них: 1) pyspark --drive
Я пишу код для замены символов следующим патерном: [^ \ w | ] с '' . Дело в том, что при использовании DataFrame «предложениеDF» внутри моей функции «removePunctuation» я получаю следующий «столбец» о
Я перед проблемой преобразования сильфона запроса в свече-SQL в pyspark запроса SQL-сервере является coalesce((Select top 1 f2.ChargeAmt from Fact_CMCharges f2
where f2.BldgID = f.BldgID
a
У меня большая таблица фактов, примерно 500M строк в день. Таблица разделена на region_date. Я должен ежедневно сканировать через 6 месяцев данных, оставлять внешние соединения с другим меньшим подмно