2017-02-08 8 views
0

Я хочу знать, какой интерпретатор подходит для Python для использования таких функций, как Numpy, pandas и matplotlib, с функцией встроенной записной книжки Ipython.Интеграция Spark SQL с использованием Pyspark с интерпретатором python и pandas и ноутбуком Ipython

Также я хочу интегрировать это с Apache Spark. Является ли это возможным?

Моя цель - мне нужно загрузить различные таблицы из разных источников, таких как Oracle, MS SQL и файлы HDFS, и их нужно преобразовать с помощью Pyspark, SparkSQL. И затем я хочу использовать pandas/matplolib для манипуляций и визуализации.

ответ

0

Проверьте песочницу hortonworks. Это виртуальная машина с хаопом и всеми ее компонентами - такими как искробезопасные hdfs - установлены и настроены. В дополнение к этому есть записная книжка под названием Zeppelin notebook, позволяющая писать скрипт на языке python или на других языках. Вы также можете свободно устанавливать библиотеки python и получать доступ к ним через ноутбук, хотя я доволен своей визуализацией данных.

Обратите внимание, что тип данных с искровой кодировкой не совместим с пандами. вам придется преобразовать ваши данные в простую матрицу и интегрировать обратно в искру или тип панды.