У меня есть набор данных, где все мои данные категоричны, и я хотел бы использовать одну горячую кодировку для дальнейшего анализа.Одно горячее кодирование сложных переменных
Основные вопросы, которые я хотел бы решить:
- Некоторые клетки содержат много текста в одной ячейке (пример будет следовать).
- Некоторые числовые значения необходимо изменить на коэффициент для дальнейшего процесса.
данных с 3 заголовками Возраст, информация & Target
mydf <- structure(list(Age = c(99L, 10L, 40L, 15L), Info = c("c(\"good\", \"bad\", \"sad\"",
"c(\"nice\", \"happy\", \"joy\"", "NULL", "c(\"okay\", \"nice\", \"fun\", \"wild\", \"go\""
), Target = c("Boy", "Girl", "Boy", "Boy")), .Names = c("Age",
"Info", "Target"), row.names = c(NA, 4L), class = "data.frame")
Я хочу создать один горячий кодирования всех этих переменных, приведенных выше, так это будет выглядеть следующим образом:
Age_99 Age_10 Age_40 Age_15 good bad sad nice happy joy null okay nice fun wild go Boy Girl
1 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1
Некоторые из вопросов, которые я проверил, я проверил: this и this.
Как Вы пришли к таким данным в следующей форме: Можете ли вы 'dput' эти несколько строк для нас? – A5C1D2H2I1M1N2O1R2T1