У меня есть R package, который предсказывает гендерные группы от первых имен. Для этого требуется несколько довольно больших наборов данных. Я поставил их в separate R package. В идеале пакет gender
может зависеть от пакета genderdata
, и оба они будут приняты CRAN. Однако, похоже, что CRAN не принимает пакет genderdata
, потому что он слишком большой (26 МБ). (Я предполагаю, что «большие данные»> = 5 Мб.)Лучший способ получить необходимые внешние данные для пакета R
Так что мой вопрос заключается в следующем: то, что это лучший способ, чтобы получить эти данные в мой gender
пакет, если я не могу включить genderdata
пакет в Imports:
в файле DESCRIPTION
,
Моя мысль зависит от devtools
и предоставить такую функцию:
install_gender_data <- function() {
if(!require(genderdata)) devtools::install_github("lmullen/gender-data-pkg")
}
Тогда я хотел бы использовать .onLoad()
и сообщение запуска пакета, чтобы сообщить пользователям запускать эту функцию, если они уже не имеют genderdata
загружен.
Звучит хорошо. В любом случае вы можете включить мини-версию набора данных, чтобы ваш пакет мог запускать некоторые тесты, не требуя больших данных? – Spacedman
Это умная идея. Мне было интересно, как сделать тесты на CRAN/Travis без доступа к пакету данных. –
Возможно субъективная точка зрения, но пакеты CRAN должны носить общий характер. Если ваш пакет только предсказывает имена, основанные на предвзятом наборе одной страны, это не очень общее. Предложение: укажите только образец данных, а затем четко определите, какой формат данных должен быть для ваших функций. Тогда ваши пользователи могут создавать свои собственные наборы данных. Кроме того, упростите загрузку данных, например. используя [эти идеи] (http://christophergandrud.blogspot.co.uk/2013/01/sourcegithubdata-simple-function-for.html) – Andrie