Мой файл усекается в Hive после его полной загрузки в Cloudera Hue

Я использую оттенок Cloudera's. В браузере файлов я загружаю CSV-файл с 3000 строк (мой файл невелик < 400k).Мой файл усекается в Hive после его полной загрузки в Cloudera Hue

После загрузки файла я перехожу в Браузер данных, создаю таблицу и импортирую данные в нее.

Когда я иду в Hive и выполняю простой запрос (скажем, SELECT * FROM table), я вижу только результаты для 99 строк. Исходный .csv имеет больше, чем эти строки.

Когда я выполняю другие запросы, я замечаю, что несколько строк данных отсутствуют, хотя они отображаются в предварительном просмотре в Hue File Browser.

Я попытался с другими файлами, и они также урезаются иногда в 65 строк или 165 строк.

Я также удалил все «,» из данных .csv перед загрузкой файла.

источник

2015-10-19 IUF

Это версия оттенка <3.7? Это звучит как старая ошибка – Romain

Версия Hue - 3.7.0. – IUF

Я, наконец, решил это. Было несколько проблем, которые, как оказалось, вызывают усечение.

Главное, что тип переменной, автоматически заданный после импорта данных, был назначен в соответствии с первыми строками. Поэтому, когда тип данных изменился с TinyINT на INT, он был усечен или изменен на «NULL». Чтобы решить эту проблему, выполните EDA и измените тип данных перед созданием таблицы.

Другие проблемы состояли в том, что память, которую я назначил виртуальной машине, замедляла процесс предварительного просмотра и что в csv содержались запятые. Вы можете настроить виртуальную машину на большее количество памяти или изменить разделение csv на вкладку.

источник

2015-10-21 13:12:23 IUF

И FYI крошечное обнаружение изменилось на что-то большее, чтобы избежать этой проблемы: https://github.com/cloudera/hue/commit/f25fbd9 – Romain

Благодарим Romain за ваши комментарии и последующие действия. – IUF

Мой файл усекается в Hive после его полной загрузки в Cloudera Hue

ответ

Смежные вопросы