Я пытаюсь сделать POC в Hadoop для агрегации журналов. у нас есть несколько серверов IIS, на которых размещено как минимум 100 сайтов. Я хочу постоянно транслировать журналы на HDFS и анализировать данные и хранить в Hive для дальнейшей аналитики.IIS Logs Straming to Hadoop в реальном времени
1) Является ли Apache KAFKA правильный выбор или Apache Flume
2) После того, как потоковая лучше использовать Apache шторм и глотают данные в улье
Пожалуйста, помогите с любыми предложениями, а также любая информация подобного рода постановки задачи.
Благодаря
Спасибо за ответ. Возможно ли, чтобы Kafka или Flume передавали файлы или передавали данные в текущем файле, поскольку данные создаются на веб-сервере IIS с некоторой задержкой в течение 5 минут или около того. – user7139920
Да .. это похоже на потоковое воспроизведение в реальном времени ... –
Вы можете использовать компонент TailFile от NiFi с 5 минутами со стороны источника https://nifi.apache.org/docs/nifi-docs/components/org.apache. nifi.processors.standard.TailFile/index.html –