У меня есть список, как похож на это:Один горячее кодирование категорий
list = ['Opinion, Journal, Editorial',
'Opinion, Magazine, Evidence-based',
'Evidence-based']
где запятые раскол между категориями например. Мнение и журнал - две отдельные категории. Реальный список намного больше и имеет более возможные категории. Я хотел бы использовать однострунную кодировку для преобразования списка, чтобы его можно было использовать для машинного обучения. Например, из этого списка я хотел бы произвести разреженную матрицу, содержащую данные, такие как:
list = [[1, 1, 1, 0, 0],
[1, 0, 0, 0, 1],
[0, 0, 0, 0, 1]]
В идеале я хотел бы использовать scikit-learn's one hot encoder, как я полагаю, это будет наиболее эффективным.
В ответ на комментарий @nbrayns:
Идея заключается в том, чтобы преобразовать список категорий из текста в векторе wherby, если он принадлежит к этой категории он будет назначен 1, в противном случае 0. Для приведенного выше примера, то которые должны быть указаны:
headings = ['Opinion', 'Journal', 'Editorial', 'Magazine', 'Evidence-based']
Какие значения должны быть 1, а что должно быть 0? – nbryans
@nbryans Редактировать вопрос. – user7347576