My Pipeline (python) пишет текстовые данные, которые читаются из BigQuery. У меня есть два варианта для ввода текстовых данных в S3.Какова наилучшая практика в случае ввода текста в ведро S3?
Первый вариант - «Подкласс подзаголовка» пользовательского Sink записывает каждую запись в каталог it2 S3. Кажется, эффективность передачи очень низкая по моему опыту. Писатель тратит около секунды на 1 запись. (Также у My datasouce есть миллионы записей!)
Второй вариант - отправить текстовые данные в GCS, который был предварительно записан в GCS. Кажется, этот вариант неэффективен. Причиной является ненужный трафик (загрузка/загрузка) между GCS и DataFlow. (My Pipeline не требует сохранения текстовых данных в GCS)
Есть ли лучший способ записать в S3, чем два моих варианта?
С уважением.
Добро пожаловать в StackOverflow! Можете ли вы предоставить более подробную информацию о том, что делает ваше приложение? Например, хотите ли вы сохранить каждую запись в отдельном объекте Amazon S3 или добавить данные к существующему объекту? Можете ли вы вместо этого хранить данные в «локальном» файле, а затем загружать файл, когда у него есть определенное количество записей? Рассматривали ли вы отправку данных в [Amazon Kinesis Firehose] (http://docs.aws.amazon.com/firehose/latest/dev/what-is-this-service.html) для сбора потоковых данных и сохранения их в Amazon S3 ? –