2016-06-14 2 views
1

Я использую процессор PutHBaseJSon, который будет извлекать данные из местоположения hdfs и помещать их в hbase. Данные, представленные в местоположении hdfs, похожи на формат ниже, и это находится в одном файле.Процессор PutHBaseJSon в Apache-Nifi

{"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"}    
{"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"} 
{"EMPID": "19", "EMPNAME": "b19", "DEPTID": "DNA"} 

, когда я исполняю процессор PutHBaseJSon, это только выборки первой строки и поместить его в таблицу Hbase, которую я создал. Не можем ли мы получить все строки, присутствующие в этом файле, с помощью этого процессора? или Как получить все записи из одного файла в hbase?

ответ

1

PutHBaseJSON принимает в качестве входного документа один JSON. После извлечения из HDFS вы сможете использовать процессор SplitText с количеством строк 1, чтобы каждый из ваших документов JSON был создан в один файл потока.

Если у вас есть миллионы записей JSON в одном файле HDFS, вы должны выполнить двухфазное разделение, первый SplitText должен делиться на количество строк, например, 10 000, а затем второй SplitText должен разделить их на одну строку каждый.