У меня есть веб-сервер, на котором другие сайты перенаправляются с некоторыми параметрами GET. Мое состояние:У меня есть 2 ГБ журналов веб-сервера каждый день, как их фильтровать?
- В настоящее время у меня есть 2 ГБ журналов веб-сервера, созданных каждый день.
- Мне нужно отфильтровать журналы не менее половины года (~ 350 ГБ журналов).
- Я использую инфраструктуру Amazon для хранения журналов на ведре S3. У меня есть два веб-сервера, которые записывают журналы.
Какую технологию я должен использовать для запроса/фильтрации этих данных? Раньше я загружал файлы на одной машине ubuntu, а затем grep, чтобы получить результаты. Я также тестировал Hadoop над AWS, но мне было сложно использовать его.
Какие технологии/решения является оптимальным с точки зрения:
- Скорость фильтрации
- Легко учиться
- Легко изменить правила фильтрации
Благодарим Вас за внимание по этому вопросу
Проверить эту статью https://aws.amazon.com/articles/Elastic-MapReduce/2440 – error2007s
Спасибо @ error2007s я попробовать его в течение нескольких дней и поместил мой отзыв здесь. – Paul