2015-10-19 2 views
0

Я использую оттенок Cloudera's. В браузере файлов я загружаю CSV-файл с 3000 строк (мой файл невелик < 400k).Мой файл усекается в Hive после его полной загрузки в Cloudera Hue

После загрузки файла я перехожу в Браузер данных, создаю таблицу и импортирую данные в нее.

Когда я иду в Hive и выполняю простой запрос (скажем, SELECT * FROM table), я вижу только результаты для 99 строк. Исходный .csv имеет больше, чем эти строки.

Когда я выполняю другие запросы, я замечаю, что несколько строк данных отсутствуют, хотя они отображаются в предварительном просмотре в Hue File Browser.

Я попытался с другими файлами, и они также урезаются иногда в 65 строк или 165 строк.

Я также удалил все «,» из данных .csv перед загрузкой файла.

+0

Это версия оттенка <3.7? Это звучит как старая ошибка – Romain

+0

Версия Hue - 3.7.0. – IUF

ответ

1

Я, наконец, решил это. Было несколько проблем, которые, как оказалось, вызывают усечение.

Главное, что тип переменной, автоматически заданный после импорта данных, был назначен в соответствии с первыми строками. Поэтому, когда тип данных изменился с TinyINT на INT, он был усечен или изменен на «NULL». Чтобы решить эту проблему, выполните EDA и измените тип данных перед созданием таблицы.

Другие проблемы состояли в том, что память, которую я назначил виртуальной машине, замедляла процесс предварительного просмотра и что в csv содержались запятые. Вы можете настроить виртуальную машину на большее количество памяти или изменить разделение csv на вкладку.

+0

И FYI крошечное обнаружение изменилось на что-то большее, чтобы избежать этой проблемы: https://github.com/cloudera/hue/commit/f25fbd9 – Romain

+0

Благодарим Romain за ваши комментарии и последующие действия. – IUF

 Смежные вопросы

  • Нет связанных вопросов^_^