2016-11-10 6 views
0

Я пытаюсь сделать POC в Hadoop для агрегации журналов. у нас есть несколько серверов IIS, на которых размещено как минимум 100 сайтов. Я хочу постоянно транслировать журналы на HDFS и анализировать данные и хранить в Hive для дальнейшей аналитики.IIS Logs Straming to Hadoop в реальном времени

1) Является ли Apache KAFKA правильный выбор или Apache Flume

2) После того, как потоковая лучше использовать Apache шторм и глотают данные в улье

Пожалуйста, помогите с любыми предложениями, а также любая информация подобного рода постановки задачи.

Благодаря

ответ

0

Вы можете использовать либо Kafka or flume также можно объединить и получить данные в HDFS, но вам нужно написать код для этого Есть OpenSource средство управления потоком данных, доступное, вам не нужно писать код. Например. NiFi and Streamsets

Вам не нужно использовать какие-либо отдельные инструменты для проглатывания, вы можете напрямую использовать эти инструменты потока данных, чтобы поместить данные в таблицу улья. Когда таблица создается в улье, вы можете делать свою аналитику, предоставляя запросы.

Сообщите, что вам нужно что-нибудь еще.

+0

Спасибо за ответ. Возможно ли, чтобы Kafka или Flume передавали файлы или передавали данные в текущем файле, поскольку данные создаются на веб-сервере IIS с некоторой задержкой в ​​течение 5 минут или около того. – user7139920

+0

Да .. это похоже на потоковое воспроизведение в реальном времени ... –

+0

Вы можете использовать компонент TailFile от NiFi с 5 минутами со стороны источника https://nifi.apache.org/docs/nifi-docs/components/org.apache. nifi.processors.standard.TailFile/index.html –