2016-11-10 4 views
2

Извините, что я новичок в Apache Nifi. Поэтому я сделал поток данных о том, как вытащить данные из Hive и сохранить их в SQL. В моем потоке данных нет ошибки, единственной проблемой является ее вытягивание данных повторно.Вытащить данные из улья на SQL Server без дубликатов с помощью Apache Nifi

Мой поток данных состоит из следующего:

  1. SelectHiveQL
  2. SplitAvro
  3. ConvertAvroToJson
  4. ConvertJsonTOSQL
  5. PutSQL

Например мой стол в улье есть только 20 строк, но когда я запускаю поток данных и проверить мой стол в MS SQL. Он сохранил 5000 строк. SelectHiveQL несколько раз вытаскивал данные.

Что мне нужно сделать, он будет тянуть только 20 строк или просто точное количество строк в моей таблице улья?

Спасибо

ответ

3

SelectHiveQL (как и многие процессоры Nifi) работает на указанный пользователем расписанию. Чтобы заставить процессор работать только один раз, вы можете установить расписание запуска примерно на 30 секунд, а затем запустить и немедленно остановить процессор. Процессор будет запускаться один раз, и его останов не прерывает текущее выполнение, а просто заставляет его не планироваться снова.

Другой способ может быть, чтобы установить расписание запуска на что-то очень большой, такой, что она будет выполнять только один раз в какой-то очень большой промежуток времени (дни, годы и т.д.)

+0

Большое вам спасибо, сэр !! – Eiger