Мы пытаемся прочитать данные из таблицы ORC в HIVE (1.2.1) и поместить эти данные в таблицу с помощью «TextInputFormat». Некоторые записи слишком велики, в исходных данных и следующее сообщение об ошибке во время работы:Запись слишком велика для буфера в памяти. Ошибка при работе с ORC-таблицами Hive через TEZ
org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.tez.runtime.library.common.sort. impl.ExternalSorter $ MapBufferTooSmallException: Запись слишком велика для буфера в памяти. Превышено ограничение переполнения буфера, bufferOverflowRecursion = 2, bufferList.size = 1, BLOCKSIZE = 1610612736
Любые идеи, как решить эту проблему?
Мы используем двигатель TEZ для выполнения запросов и ошибок с простым двигателем MR нет.
запроса выполнить:
insert overwrite table visits_text_test_1m select * from visits where dt='2016-01-19' limit 1000000;
UPD: Та же ошибка при копировании из ORC для хранения ORC.
Обновление 2: Простой «выбор» из ORC работает очень хорошо с любым движком.
Похоже на ошибку TEZ - сделать это явным в заголовке и тегах. –
Thx для заметки, Самсон! – Samriang