Если я запускаю задание EMR (на Java) на веб-сервисах Amazon для обработки больших объемов данных, возможно ли, чтобы каждый отдельный картограф получал небольшой файл, хранящийся на S3? Обратите внимание, что маленький файл, о котором я говорю, НЕ является входом для картографов. Скорее, картографы должны обрабатывать входные данные в соответствии с некоторыми правилами в маленьком файле. Может быть, большой входной файл представляет собой, например, миллиард строк текста, и я хочу отфильтровать слова, которые находятся в черном списке или что-то еще, читая небольшой файл вложенных в черный список слов, хранящихся в ведре S3. В этом случае каждый обработчик будет обрабатывать разные части входных данных, но все они должны получить доступ к файлу ограниченных слов на S3. Как заставить mappers делать это на Java?Как я могу получить доступ к содержимому файла из карт на гибкой карте Amazon?
EDIT: Я не использую фреймворк Hadoop, поэтому нет вызовов метода setup() или map(). Я просто использую потоковый сервис EMR и читаю stdin по строкам из входного файла.