2017-01-27 6 views
1

У меня есть пакетное задание потока данных, которое имеет несколько экземпляров java.lang.RuntimeException: unexpected в журналах.Исключения «java.io.IOException: INTERNAL» вызвали сбой конвейера

Копаем глубже, я увидел, что было несколько различных исключений:

  • java.io.IOException: INTERNAL: Detected non-monotonic keys.
  • java.io.IOException: INTERNAL: Corruption: block checksum
  • java.io.IOException: INTERNAL: Corruption: bad entry in block
  • java.io.IOException: DATA_LOSS: record checksum mismatch

Я считаю, что это может быть просто одноцветный ошибка, но я не знаю, как выбрать место для репо rt такие вопросы, поэтому я размещаю здесь для видимости.

работа идентификатор 2017-01-26_13_26_59-15900546489513181319

+0

Здравствуйте, мне было интересно, если бы вы предоставили немного больше информации, чтобы помочь нам решить эту проблему. Являются ли ваши фляги загружающими код родного/JNI? У вас есть надежный способ воспроизвести эту ошибку? –

+0

Привет, Алекс, мы расширили 'FileBasedSink.FileBasedWriter' для записи в GZIPOutputStream. У меня нет надежного способа воспроизвести эту ошибку, я запустил этот конвейер из разных источников более 300 раз и видел только эти внутренние ошибки в этом задании. Единственное сходство между этим сбоем и другими неудачными заданиями (<10 в целом) было присутствием этого исключения: 'java.lang.RuntimeException: java.io.IOException: INTERNAL: Write reject (идентификатор автора не найден)'. – Thang

+0

Кроме того, я просто перезапустил эту работу с теми же параметрами, и это удалось на этот раз. – Thang

ответ

0

Это может быть результатом плохих данных перетасовки обработки машины, и указывает неустранимая ошибка для этого конкретного запуска задания. Если проблема сохраняется в течение нескольких запусков, обратитесь к Google dataflow, DATA_LOSS Exception за возможные проблемы с потоками.