Каковы методы, которые можно использовать для оптимизации импорта sqoop? Я попытался использовать split по столбцу, чтобы включить параллелизм и увеличил количество картографов на основе объема данных таблицы. Будет ли изменение в Fair Scheduler из FIFO поможет? Заранее спасибо!Как оптимизировать импорт Sqoop?
sqoop import -D mapred.job.queue.name=$queuename -D mapred.job.name=$table_SQOOP_INITIAL_LOAD -D java.security.egd=file:/dev/../dev/urandom -D mapred.child.java.opts=" -Djava.security.egd=file:/dev/../dev/urandom" --driver com.teradata.jdbc.TeraDriver --connect jdbc:teradata://${sqoopSourceServer}/DATABASE=${sqoopSchema} --username ${sqoopUsername} --password ${sqoopPassword} --hive-import --hive-overwrite --hive-drop-import-delims --null-string '\\N' --null-non-string '\\N' --table "$table" --num-mappers 50 --split-by column --target-dir ${hdfsTargetDirectory}$table --hive-table ${hive_database}.$table
Проверить это http://www.xmsxmx.com/performance-tuning-data-load-in-hadoop-with-sqoop/ – BruceWayne