У нас есть сервер производства Linux и ряд сценариев, которые мы пишем, которые мы хотим запустить на нем, чтобы собирать данные, которые затем будут помещены в озеро данных Spark.Кодирование лучшей практики для скрипта R, запущенного в производстве
Мой фон - это SQL Server/Fortran, и есть очень конкретные лучшие практики, которым следует следовать.
- производственной среды должны быть стабильными с точки зрения контроля версий, как с точки зрения кода, но и установленных приложений, операционной системы и т.д.
- Изменения кода/приложений/операционной системы должно быть сделано либо в отдельной среде, либо таким образом, который контролируется, и может быть зарезервировано.
- Если существует вторая среда, тогда может быть выполнена возможность параллельного выполнения для проверки изменений системы.
- (в основном), разработчики ограничены от изменения производственной среды
При рассмотрении кода R, существует целый ряд вещей, которые у меня есть вопросы по.
- library(), install.packages() - Я хотел бы исключить возможность установки более новых версий пакетов при каждом запуске скриптов?
- Как лучше всего назвать пакеты R, запланированные с помощью задания CRON? Здесь есть несколько вариантов.
- При использовании RSelenium самый эффективный способ использования gui/web-браузера или виртуализированного веб-браузера?
Ваши вопросы R поражают меня, поскольку все еще слишком широкие и расплывчатые, на которые можно легко ответить. Если этот вопрос будет работать, я думаю, вам нужно будет предоставить более конкретные детали. – joran
Заключительные три пулевых пункта - это отдельные вопросы. – lmo
Не стесняйтесь комментировать 'install.packages'. R будет использовать то, что доступно, или приносить ошибки в ваше огорчение, если они отсутствуют (если вы явно не поймаете их). –