У меня есть блог, предлагающий API REST для загрузки данных. API предоставляет список тем (в JSON). В списке можно перебирать и загружать сообщения по каждой теме. Я хочу каждый день загружать все сообщения форума и хранить их в HDFS.Результаты опроса от REST API до HDFS
Я думал о написании Java-программы, которая вызывает API для получения данных и хранения их на HDFS с использованием API Hadoop. Я могу запустить программу Java с ежедневной периодичностью Oozie.
Есть ли лучший способ для этого? возможно, сохраните данные в локальной файловой системе и поместите файл в HDFS в конце. Мне было интересно, можно ли использовать Flume в этом случае и какова будет его добавленная стоимость?
Заранее спасибо