Этот вопрос был задан мне в недавнем интервью. В соответствии с моими знаниями мы можем использовать Sqoop для передачи данных между СУБД и экосистемами hadoop (hdfs, hive, pig, hbase). Может кто-нибудь, пожалуйста, помогите мне найти ответ?Можем ли мы использовать Sqoop для перемещения любого файла структурированных данных отдельно от перемещения данных из РСУБД?
ответ
Согласно моему пониманию, Sqoop не может переместить любой структурированный файл данных (например, CSV) к HDFS или другой Hadoop компонент экосистемы, как улей, HBase и т.д.
Почему вы бы использовали для этого Sqoop ?
Вы можете просто поместить любой файл данных непосредственно в HDFS, используя его REST, Web или Java API.
Sqoop не предназначен для использования в этом случае.
Основная цель импорта sqoop - получение данных из СУРБД параллельно.
Кроме того, Sqoop имеет Sqoop Import Mainframe.
В
import-mainframe
импорта инструмента все последовательные наборы данных в секционированной наборе данных (PDS) на ЭВМ на HDFS. PDS сродни каталогу открытых систем. Записи в наборе данных могут содержать только символьные данные. Записи будут храниться со всей записью как одно текстовое поле.
Спасибо! Я сказал то же самое ... не уверен, что он пытался спросить ... –