-1

Как настроить один узел hadoop-клиента на AWS с использованием hortonworks-data-platform? Затем запустите простой пример подсчета слов. Затем используйте ту же машину для запуска подсчёта искрового слова.Как настроить один узел Hadoop и Spark Client на AWS через ambari

2017-02-08 good BOB

Установка

Во-первых, зарегистрировать учетную запись на АМС и создать экземпляр EC2 в версии Ubuntu 14,04. (Ubuntu 16 не будет работать). Добавьте настроенное правило TCP, чтобы открыть порт 0-65535 в вашей группе безопасности.

Вам не нужно устанавливать какие-либо jdk или другие зависимости самостоятельно.

Во-вторых, по этой ссылке, чтобы установить HDP на вас EC2 экземпляру http://docs.hortonworks.com/HDPDocuments/Ambari-2.1.2.0/bk_Installing_HDP_AMB/content/_download_the_ambari_repo_ubuntu14.html Обратите внимание, что вам необходимо установить НТП на вашем экземпляре

sudo apt get install ntp

и не забудьте изменить root до ubuntu при настройке сервера.

В-третьих, загрузите файл данных и скопируйте его в hdfs. Я использовал

sudo wget https://www.dropbox.com/s/cz25tno9pi817ft/large_data4word_counting?dl=0# 
## extract the file and rename it to be large_data 
sudo -u hdfs -copyFromLocal /large_data/

вы можете использовать либо SUDO -u HDFS или CHMOD, чтобы дать вам власть на каталогах

Выполнить MapReduce Word Count Работа

Go в папку /usr/hdp/current/hadoop-mapreduce-client.

sudo -u hdfs hadoop jar hadoop-mapreduce-examples.jar wordcount /large_data /result

Тогда вы можете найти количество слов результат задания в папке результата.

sudo -u hdfs hadoop dfs -copyToLocal /result /result

Запуск Спарк Word Count Работа

написать программу Python

import sys from operator import add from pyspark import SparkContext,SparkConf if __name__ == "__main__": conf = SparkConf().setAppName("Spark Count") sc = SparkContext(conf=conf) text_file = sc.textFile("/large_data") counts = text_file.flatMap(lambda x: x.split(' ')) \ .map(lambda x: (x, 1)) \ .reduceByKey(add) counts.saveAsTextFile("/output")

выполнить задание

export HADOOP_CONF_DIR=/etc/hadoop/conf/ sudo -u hdfs /usr/hdp/current/spark-client/bin/spark-submit --master yarn \ wordcount.py

источник

2017-02-08 10:03:40

Как настроить один узел Hadoop и Spark Client на AWS через ambari

ответ

Установка

Выполнить MapReduce Word Count Работа

Запуск Спарк Word Count Работа

Смежные вопросы