1

я планирую следующее поколение системы анализа я разрабатываю, и я думаю о его реализации с помощью одного из MapReduce/Stream-Processing платформ, таких как Flink, Spark Streaming и т.д.DB доступ из Mapper в MapReduce

Для анализа , у картографов должен быть доступ к БД.

Так что моя самая большая забота - когда сопоставлен сопоставитель, все соединения из пула подключений будут использоваться, и может возникнуть сопоставление, которое не сможет получить доступ к БД.

Как мне с этим справиться? Это что-то, о чем я должен беспокоиться?

+2

Я исхожу из фона искры. Я думаю, вам следует избегать предоставления доступа к базе данных «mappers», что вызывает сложность и, на мой взгляд, не лучший подход к анализу параллельных данных (по крайней мере, с искрыми). Вы изучаете лучший способ получить данные в своем аналитическом конвейере? – ImDarrenG

+2

Для чего вам нужен доступ к БД в ваших вычислительных процессах? Прием данных? Погляди? – LiMuBei

+0

@ImDarrenG, Да, я изучаю лучший способ получить данные в конвейере анализа. и @ LiMuBei, мне нужно обработать много данных от многих датчиков, каждый образец нужно обрабатывать с использованием метаданных из БД (которые могут время от времени меняться, в противном случае я бы кэшировал все данные из БД в каждом преобразователе) –

ответ

1

Как вы указали, стратегия стиля тяги будет неэффективной и/или сложной.

Ваша стратегия приема метаданных из БД будет определяться количеством метаданных и частотой изменения метаданных. В любом случае, отход от сбора метаданных, когда это необходимо, и получения обновлений при изменении метаданных, вероятно, будет хорошим подходом.

Некоторые идеи:

  • Периодически сбрасывают мета-данные в плоский файл/с в распределенной файловой системы
  • Streaming обновления мета-данных в ваш трубопровод при записи времени, чтобы сохранить кэш-памяти уточненный
  • Используйте отдельный механизм для извлечения мета-данных, например, Акко Actor/с опросом изменений

Это будет зависеть от компромиссов вы способны сделать для вашего далпотребительная случай.

Если интерактивность БД неизбежна, то я действительно задаюсь вопросом, будут ли каркасы стиля map-reduce оптимальным решением для решения вашей проблемы. Но любые неудачные задачи должны быть повторно решены рамками.