У меня есть огромная база данных новостей, но всякий раз, когда я пытаюсь sqoop, он пишет 2-3 файлы, а не весь 200.SQOOP размер неравномерным выходного файла
sqoop import -D mapred.map.max.attempts=4 \
-D dfs.blocksize=1073741824 \
-D oraoop.block.allocation=RANDOM \
-D mapred.job.queue.name=default \
-m 200 \
--split-by AUTHOR_ID \
--connect jdbc:oracle:thin:@$127.0.0.1:1521:SRDB \
--username abc \
--password 1234 \
--table L.ARTICLE \
--null-string '' \
--null-non-string '' \
--target-dir /data/output1.0
--outdir /tmp/output
Но, когда я побежал, Я получал 202 файла вместо 200. И среди этих только 3 файлов есть данные, а остальные выходные файлы пустые.
Что я делаю неправильно? Любой намек был бы оценен!
Спасибо
Большое вам спасибо! Очень приятно писать. – Gon
В этом случае, как я могу убедиться, что тот же AUTHOR_ID не будет находиться в нескольких файлах? – Gon
@ Пойдем, я не понял. Каждый файл создается некоторым запросом диапазона на AUTHOR_ID, и каждый запрос отличается, поэтому в разных файлах будет отличаться AUTHOR_ID. –