2016-12-26 9 views
0

Для исследовательской работы я буду использовать модель лассо для выполнения классификации и выбора функций. Я готов использовать однострунную кодировку для обработки своих категориальных данных и вам нужно будет выяснить, какие карты функций соответствуют исходным категориальным значениям, чтобы определить, какие функции были окончательно выбраны для окончательной модели. Я давно искал этот вопрос, но не нашел ответа.Как горячая кодировка scikit назначает манекены?

Как присвоить значения горячего кодирования scikit? Например, мои категориальные значения для определенной переменной {1, 2, 3, 4}. Содержит ли одно горячее кодирование их в манекенах в хронологическом порядке (например, падает 1, делает первый манекен для значения 2, второй манекен для значения 3 и третий манекен для значения 4?) Или назначает его на основе порядка, в котором он находит различные категориальные значения, как он сканирует вниз строки (например, первое наблюдение имеет значение 3, а второе наблюдение имеет значение 2, так 3 отбрасываются и первый манекен становится значением 2)?

Спасибо!

ответ

1

с быстрый взгляд на the source мне кажется, что они заканчиваются порядком целым значением. Однако, поскольку это не задокументировано, вы не можете рассчитывать на это: это не часть контракта. Если вам нужно знать, какое значение заканчивается где я предлагаю написать свою собственную реализацию OneHot. ldn't быть слишком твердым, и тогда вы можете рассчитывать на него при обновлении до новых версий и т. д.