2014-08-30 3 views
3

У меня есть R package, который предсказывает гендерные группы от первых имен. Для этого требуется несколько довольно больших наборов данных. Я поставил их в separate R package. В идеале пакет gender может зависеть от пакета genderdata, и оба они будут приняты CRAN. Однако, похоже, что CRAN не принимает пакет genderdata, потому что он слишком большой (26 МБ). (Я предполагаю, что «большие данные»> = 5 Мб.)Лучший способ получить необходимые внешние данные для пакета R

Так что мой вопрос заключается в следующем: то, что это лучший способ, чтобы получить эти данные в мой gender пакет, если я не могу включить genderdata пакет в Imports: в файле DESCRIPTION ,

Моя мысль зависит от devtools и предоставить такую ​​функцию:

install_gender_data <- function() { 
    if(!require(genderdata)) devtools::install_github("lmullen/gender-data-pkg") 
} 

Тогда я хотел бы использовать .onLoad() и сообщение запуска пакета, чтобы сообщить пользователям запускать эту функцию, если они уже не имеют genderdata загружен.

+1

Звучит хорошо. В любом случае вы можете включить мини-версию набора данных, чтобы ваш пакет мог запускать некоторые тесты, не требуя больших данных? – Spacedman

+0

Это умная идея. Мне было интересно, как сделать тесты на CRAN/Travis без доступа к пакету данных. –

+0

Возможно субъективная точка зрения, но пакеты CRAN должны носить общий характер. Если ваш пакет только предсказывает имена, основанные на предвзятом наборе одной страны, это не очень общее. Предложение: укажите только образец данных, а затем четко определите, какой формат данных должен быть для ваших функций. Тогда ваши пользователи могут создавать свои собственные наборы данных. Кроме того, упростите загрузку данных, например. используя [эти идеи] (http://christophergandrud.blogspot.co.uk/2013/01/sourcegithubdata-simple-function-for.html) – Andrie

ответ

-1

Проверьте пакет «babynames» Хэдли Уикхема. http://cran.r-project.org/web/packages/babynames/index.html

+0

Я знаком с этим пакетом. Но он не загружает данные после того, как пакет был установлен. Сценарии в data-raw, загружающие данные, предназначены для создания пакета и исключаются из самого встроенного пакета. –

 Смежные вопросы

  • Нет связанных вопросов^_^