У меня есть CSV-файл, как это:Один горячего кодирование
text short_text category
... ... ...
Я открыл файл и сохранен его в кадре данных панды, как так:
filepath = 'path/data.csv'
train = pd.read_csv(filepath, header=0, delimiter=",")
В категории полей для каждого запись содержит список категорий, который является строкой, и каждая категория, которая находится в одинарных кавычках, например:
['Adult' 'Aged' 'Aged 80 and over' 'Benzhydryl Compounds/*therapeutic use' 'Cresols/*therapeutic use' 'Double-Blind Method' 'Female' 'Humans' 'Male' 'Middle Aged' 'Muscarinic Antagonists/*therapeutic use' '*Phenylpropanolamine' 'Tolterodine Tartrate' 'Urinary Incontinence/*drug therapy']
Я хотел бы использовать Тхи s для машинного обучения, используя однострунное кодирование. Я понимаю, что могу реализовать это, используя scleit.preprocessing пакет scikit-learn, но я не уверен, как это сделать.
Примечание: У меня нет списка всех возможных категорий.