Один горячего кодирование

У меня есть CSV-файл, как это:Один горячего кодирование

text short_text category 
... ...  ...

Я открыл файл и сохранен его в кадре данных панды, как так:

filepath = 'path/data.csv' 
train = pd.read_csv(filepath, header=0, delimiter=",")

В категории полей для каждого запись содержит список категорий, который является строкой, и каждая категория, которая находится в одинарных кавычках, например:

['Adult' 'Aged' 'Aged 80 and over' 'Benzhydryl Compounds/*therapeutic use' 'Cresols/*therapeutic use' 'Double-Blind Method' 'Female' 'Humans' 'Male' 'Middle Aged' 'Muscarinic Antagonists/*therapeutic use' '*Phenylpropanolamine' 'Tolterodine Tartrate' 'Urinary Incontinence/*drug therapy']

Я хотел бы использовать Тхи s для машинного обучения, используя однострунное кодирование. Я понимаю, что могу реализовать это, используя scleit.preprocessing пакет scikit-learn, но я не уверен, как это сделать.

Примечание: У меня нет списка всех возможных категорий.

источник

2016-12-14 Anonymous

В качестве альтернативы piRSquared's answer, вы можете использовать sklearn.preprocessing.MultiLabelBinarizer.

В моих тестах это было на несколько порядков быстрее, особенно для больших наборов данных.

источник

2016-12-14 20:21:11

вы можете использовать, чтобы помочь pd.value_counts

df = pd.DataFrame(dict(
     text=list('ABC'), 
     short_text=list('XYZ'), 
     category=[list('abc'), list('def'), list('abefxy')] 
    )) 

df.category.apply(pd.value_counts).fillna(0).astype(int)

или все вместе

pd.concat(
    [df.drop('category', 1), 
    df.category.apply(pd.value_counts).fillna(0).astype(int)], 
    axis=1 
)

источник

2016-12-14 20:00:24 piRSquared

ответ

Смежные вопросы