У меня есть 2 ГБ журналов веб-сервера каждый день, как их фильтровать?

У меня есть веб-сервер, на котором другие сайты перенаправляются с некоторыми параметрами GET. Мое состояние:У меня есть 2 ГБ журналов веб-сервера каждый день, как их фильтровать?

В настоящее время у меня есть 2 ГБ журналов веб-сервера, созданных каждый день.
Мне нужно отфильтровать журналы не менее половины года (~ 350 ГБ журналов).
Я использую инфраструктуру Amazon для хранения журналов на ведре S3. У меня есть два веб-сервера, которые записывают журналы.

Какую технологию я должен использовать для запроса/фильтрации этих данных? Раньше я загружал файлы на одной машине ubuntu, а затем grep, чтобы получить результаты. Я также тестировал Hadoop над AWS, но мне было сложно использовать его.

Какие технологии/решения является оптимальным с точки зрения:

Скорость фильтрации
Легко учиться
Легко изменить правила фильтрации

Благодарим Вас за внимание по этому вопросу

источник

2016-07-29 Paul

Проверить эту статью https://aws.amazon.com/articles/Elastic-MapReduce/2440 – error2007s

Спасибо @ error2007s я попробовать его в течение нескольких дней и поместил мой отзыв здесь. – Paul

Вы можете использовать поток журнала облачных наблюдений AWS; правильно он создан для ваших нужд. Вы можете создать поток журнала и с небольшим кодом на своей стороне клиента (ваш веб-сервер), вы можете автоматически вводить журналы в облачные часы.

После отправки данных журнала в облачные часы вы можете искать, фильтровать, создавать метрики и панель инструментов из файлов журнала.

Например, вы хотите рассчитать все «неудачные логины» в ваших журналах или рассчитать размер вашего веб-сервера ниже по потоку или любые другие показатели.

Это очень легко и быстро.

также с облачным наблюдением, вы можете создать оповещение и получить предупреждение, когда что-то произойдет в ваших файлах журналов.

Наконец, вы можете создать битумную панель мониторинга из ваших показателей журналов.

Наслаждайтесь облачными часами!

для получения дополнительной информации:

https://aws.amazon.com/cloudwatch/

http://docs.aws.amazon.com/AmazonCloudWatch/latest/DeveloperGuide/WhatIsCloudWatchLogs.html

источник

2016-07-31 15:59:16

В конце концов я использовал журналы облачных наблюдений AWS, потому что это было просто настроить и дать мне основные параметры фильтрации, что для меня большое преимущество в том, что другие пользователи могут использовать его без каких-либо знаний о консоли * nix. – Paul

В вашем случае я порекомендую Elasticsearch (поддерживает интеграцию с несколько AWS).

Он прост в использовании, достаточно быстро, масштабируется и имеет потрясающие плагины, называемые kibana и logstash.

Первый - для визуализации, второй - для анализа/фильтрации журналов, у него есть файл конфигурации, в котором вы можете изменить фильтр, как хотите.

Here хороший учебник, поэтому вы можете начать использовать logstash.

источник

2016-07-30 18:08:06

У меня есть 2 ГБ журналов веб-сервера каждый день, как их фильтровать?

ответ

Смежные вопросы