Многое было написано о развертывании приложений хруста для данных на EC2/S3, но я хотел бы знать, каков типичный рабочий процесс для разработки таких приложений?Рабочий процесс для разработки криволинейных приложений на amazon ec2/S3
Допустим, у меня есть 1 ТБ данных временных рядов, и мне удалось сохранить это на S3. Как написать приложения и провести интерактивный анализ данных для создания моделей машинного обучения, а затем написать большие программы для их тестирования? Другими словами, как же организовать настройку среды dev в такой ситуации? Я загружаю экземпляр EC2, разрабатываю программное обеспечение и сохраняю свои изменения и выхожу каждый раз, когда хочу сделать какую-то работу?
Как правило, я запускаю R или Pylab, считываю данные с локальных дисков и делаю свой анализ. Затем я создаю приложения, основанные на этом анализе, и позволяю им потерять эти данные.
На EC2 я не уверен, смогу ли я это сделать. Сохраняют ли данные данные локально для анализа и используют только EC2, когда у них есть большие задания моделирования?
Мне очень любопытно узнать, что делают другие люди, особенно начинающие, которые имеют всю свою инфраструктуру на базе EC2/S3.
Спасибо, что поделились этим. Итак, в основном, вы будете хранить локальную (внеамазонную) копию данных, а также разрабатывать локально (без амазонки), но запускать эксперименты на амазонке? – signalseeker
Наш бизнес - это не эксперименты, но по существу это то, что мы делаем. Часть заявки включает очень большие налоговые таблицы и правила. Мы поддерживаем их в нашей собственной сети и отправляем обновления в Amazon, когда меняются тарифы или правила (обычно полночь в конце каждого месяца). –