Я хотел бы анализировать непрерывный поток данных (доступ через HTTP) с использованием подхода MapReduce, поэтому я искал Apache Hadoop. К сожалению, похоже, что Hadoop рассчитывает начать работу с входного файла фиксированного размера, вместо того, чтобы передавать новые данные потребителям по мере их поступления. Это действительно так, или я что-то упускаю? Есть ли другой инструмент MapReduce, который работает с данными, считываемыми из открытого сокета? Масштабируемость здесь является проблемой, поэтому я бы предпочел, чтобы MapReducer обрабатывал беспорядочный материал распараллеливания.Потоковые данные и Hadoop? (не Hadoop Streaming)
Я играл с Cascading и смог запустить задание по статическому файлу, доступ к которому осуществляется через HTTP, но это фактически не решает мою проблему. Я мог бы использовать curl в качестве промежуточного шага, чтобы сбрасывать данные где-то в файловой системе Hadoop и писать сторожевой таймер, чтобы запускать новое задание каждый раз, когда новый кусок данных готов, но это грязный хак; должен быть более элегантный способ сделать это. Есть идеи?
Я не очень хорошо знаком с этим полем, но на первый взгляд также понравился ActiveInsight (лицензия CPAL - требуется атрибуция). –