2012-01-11 3 views
4

Я пытаюсь создать пробную кассету + свиной кластер. Вики cassandra заставляют это звучать так, как будто вам нужен хаос для интеграции со свиньями.Интеграция Cassandra и Pig - Есть ли опция hasoop?

но readme в cassandra-src/contrib/pig заставляет звучать так, как будто вы можете запускать свинью на кассандре без хаоса.

Если hadoop не является обязательным, что вы теряете, не используя его?

ответ

6

Hadoop является необязательным только при проверке. Чтобы делать что-либо в любом масштабе, вам также понадобится хауоп.

Бег без hadoop означает, что вы используете свинью в локальном режиме. В основном это означает, что все данные обрабатываются одним и тем же процессом свиньи, в котором вы работаете. Это отлично работает с одним узлом и примерными данными.

При работе с любым значительным количеством данных или несколькими машинами вы хотите запустить свиньи в режиме хаоса. Запустив контрольные треки отладчиков на ваших узлах cassandra, вы можете воспользоваться преимуществами, которые уменьшает карту карты, обеспечивая распределение рабочей нагрузки и использование локализации данных для снижения сетевой передачи.

+0

Вот что мне нужно было знать. Спасибо. – marathon

-1

Это не обязательно. Cassandra имеет собственную реализацию LoadFunc и storeFunc для свиней, которые позволяют вам запрашивать и хранить.

Hadoop и Cassandra отличаются разными способами. Трудно сказать, что вы теряете, не зная, что именно вы пытаетесь достичь.

+0

Hadoop требуется для параллелизма Pig. Существует не Cassandra-совместимый Pig, только локальный режим. – rjurney