Сколько места необходимо для загрузки всего репозитория CRAN? Сохраняя все файлы на молнии, насколько большой будет папка, в которой хранятся все пакеты? Я не могу найти ясного ответа на этот вопрос. Я читал о 3 ГБ, но я также сталкивался с 200 ГБ.Сколько места необходимо для загрузки всего репозитория CRAN?
ответ
За мой комментарий:
rsync -rtlzv --delete cran.r-project.org::CRAN/bin/macosx/mavericks/contrib/3.2/ /cran/bin/macosx/mavericks/contrib/3.2/
rsync -rtlzv --delete cran.r-project.org::CRAN/bin/macosx/mavericks/contrib/3.3/ /cran/bin/macosx/mavericks/contrib/3.3/
rsync -rtlzv --delete cran.r-project.org::CRAN/doc/ /cran/doc/
rsync -rtlzv --delete cran.r-project.org::CRAN/bin/macosx/tools/ /cran/bin/macosx/tools/
rsync -rtlzv --delete cran.r-project.org::CRAN/web/ /cran/web/
rsync -rtlzv --delete cran.r-project.org::CRAN/src/ /cran/src/
rsync -tlzv --delete -a --include="NEWS" --include="*.shtml" --include="*.html" --include="*.pkg" --include="*.dmg" --include="*.gz" --exclude="*" cran.r-project.org::CRAN/bin/macosx/ /cran/bin/macosx/
rsync -tlzv --delete -a --include="*.html" --include="*.shtml" --include="*.svg" --include="*.png" --exclude="*" cran.r-project.org::CRAN/ /cran/
rsync -rtlzv --delete cran.r-project.org::CRAN/src/contrib/PACKAGES.gz /cran/src/contrib/PACKAGES.gz
(который не является оптимизированным набором rsync
заявлений) получает меня очень полнофункциональный местный CRAN репо, который поддерживает все мои системы достаточно хорошо. Я позволяю единственной, почти бесполезной виртуальной машине Windows, которую я держу для тестирования, использую зеркало RStudio, так как я не использую эту систему, но мои системы linux и macOS безупречно работают с этим, когда дело доходит до pkgs.
Как я сказал в комментарии, это менее 60 ГБ.
Чтобы сделать его полностью функциональным, вам необходимо настроить веб-сервер, и PITA использует что-либо еще, кроме Apache, с учетом того, что в 1990-х годах веб-технология настройки CRAN, по-видимому, была сохранена. Указанная конфигурация - это упражнение, оставленное читателю.
Примечание: это стоит того, чтобы делать зеркало и исследовать самородки вокруг файловой системы. Многие файлы RDS для «бухгалтерского учета» и другие идеи, которые вы не получите от начала HTML-файлов 1990-х годов на веб-сайте.
Использование собственного локального зеркала уменьшает утечку информации и препятствует тому, чтобы вы вносили вклад в количество (IMO) неточно) «# downloads», которое отображается на значках GitHub README.md и сохраняет вашу конфиденциальность для тех зеркал, которые не Не придерживайтесь того, чтобы не хранить журналы или не использовать ваш pkg.
Почему вы считаете, что # скачивание очень неточно? – pdb
Я уверен, что он включает в себя установки Travis pkg (или другие установки CI), и это определенно пересказывает результаты, если это так. Плюс RStudio - не единственное зеркало. – hrbrmstr
Кажется, вы просите фонд R опустить огромный счет за трафик за тривиальный выигрыш. Почему бы просто не использовать случайные репозитории? – pdb
Ответ _real_ «это зависит». Вам нужны только источники? Бинарники для одной или нескольких платформ? Полная или частичная история? HTML-файлы? Учет RDS-файлов? Исторический и текущий источник R? Вам не нужно зеркалировать _all_ из CRAN, чтобы иметь возможность ретрансляции CRAN локально. У меня есть настраиваемая конфигурация «rsync» (ежедневно), и теперь она составляет <60 ГБ на диске для подмножества, которое я выбрал для зеркалирования: это источники pkg, двоичные файлы macOS, полные R-источники, все HTML (включая проверки CRAN) и некоторые другие биты , – hrbrmstr