pyspark-sql

1зной

2ответ

Я использую spark 1.3.0, который снабжен CDH 5.4.0 vm Я пытаюсь запустить фрагмент кода для выполнения запросов на pyspark через JDBC Я не могу подключиться с помощью любого из них: 1) pyspark --drive

0зной

1ответ

Поведение объекта «Столбец» внутри функции искры

Я пишу код для замены символов следующим патерном: [^ \ w | ] с '' . Дело в том, что при использовании DataFrame «предложениеDF» внутри моей функции «removePunctuation» я получаю следующий «столбец» о

1зной

1ответ

Как выполнить «выбрать топ 1 х из таблицы» заявления в свече SQL

Я перед проблемой преобразования сильфона запроса в свече-SQL в pyspark запроса SQL-сервере является coalesce((Select top 1 f2.ChargeAmt from Fact_CMCharges f2 where f2.BldgID = f.BldgID a

0зной

1ответ

Оптимизация большого стола Присоединиться к PySpark

У меня большая таблица фактов, примерно 500M строк в день. Таблица разделена на region_date. Я должен ежедневно сканировать через 6 месяцев данных, оставлять внешние соединения с другим меньшим подмно