Я ищу так руководство и советы в понимании, что нужно сделать, чтобы сделать разумное доказательство концепции Hadoop в облаке? Я полный noob в мире Big Data Analytics, и я буду более чем счастлив за некоторые предложения, которые могут быть основаны на вашем опыте?Какова минимальная конфигурация, необходимая для выполнения Hadoop-доказательства концепции в облаке?
ответ
Пошаговое руководство по созданию кластера HDFS и его использованию. Надеюсь, он вам поможет. http://www.edureka.co/blog/install-apache-hadoop-cluster/
Что касается вашего вопроса, то есть две важные части:
Настройка Hadoop кластер требует установки какого-то Hadoop от дистрибутива (Apache с открытым исходным кодом или Cloudera или IBM). Это даст вам возможность узнать о конфигурации Hadoop, распределении пространства, производительности и всем типе администрирования для вашего кластера. Для этого вам необходимо ваше собственное оборудование/облако и установить любое из вышеупомянутых дистрибутивов.
Во-вторых, вы хотели бы узнать о карте уменьшить рамки и несколько компонентов Hadoop, как улей, Hbase и т.д. Чтобы сделать это, вы можете перейти к Bluemix Сво хорошее место, чтобы начать Hadoop на облачной службе.
Оба этих навыка важны и необходимы для работы с hadoop.
Возможно, вам стоит взглянуть на Elastic-Mapreduce от Amazon (http://aws.amazon.com/elasticmapreduce/): переместите некоторые данные в ведро S3, запустите кластер и затем сделайте все, что захотите (например, Hive , Pig, напишите свой собственный MapReduce). Это, вероятно, самый короткий путь к Hadoop: вы можете быстро и быстро работать! –
Возможно, вы должны взглянуть на [Microsoft's HDInsight] (http://azure.microsoft.com/en-us/services/hdinsight/): переместите некоторые данные в учетную запись хранения Azure Blob, запустите кластер и выполните независимо от того, что вы хотите (например, Hive, Pig, напишите свой собственный MapReduce, используйте C#). –