2013-07-17 3 views
0

Я хочу загрузить некоторые файлы в двоичном формате (например, jpegs, но может быть любым двоичным форматом), каким-то образом его обработать и записать. Я хочу сделать это на hadoop, и я хотел бы написать его через Cascading framework.Как я могу читать и писать двоичные файлы в Cascading?

Есть ли бинарные раковины/вкладки, которые я могу использовать для файлов в двоичном формате? Любой другой способ сделать это?

Я ничего не смог найти. Единственная альтернатива, о которой я мог подумать, - это, может быть, я должен реализовать свой собственный входной формат hadoop InputFormat, который будет читать файлы в виде байтового массива или java ByteBuffer, но мне кажется странным, что нет встроенного решения (потому что я уверен, что я 'не первый, кто столкнулся с этой проблемой).

Если у кого есть какие-либо указатели будут высоко оценен

ответ

2

Вам придется написать свой собственный Hadoop InputFormat обрабатывать ваши двоичные данные, а затем обернуть эту InputFormat в пользовательском каскадном Scheme. С яркой стороны вам не нужен обычай Tap.

Все это происходит от Cascading author.