2016-02-07 5 views
-2

может помочь! Я загрузил популярный набор данных 20 групп новостей, в котором есть 20 классов, но я хочу, чтобы классифицировать все документы на шесть классов, поскольку некоторые классы очень связаны. Например, все документы, связанные с компьютером, должны иметь новый класс. 1.As теперь, документы назначаются из 1-20, отражающие классы, связанные с классом, имеют 2,3,4,5 и 6. Я хочу сказать, 1 быть классом всех связанных с компьютером (2,3, 4,5,6). Я протестировал его, используя 20_newsgroups.target [0], и это дало мне 7, что означает, что класс документа в 0 равен 7.I назначить ему новый класс, используя 20_newsgroups.target [0] = '1', и когда я пытаюсь 20_newsgroups.target [0], он показывает 1, что нормально. Но как я могу сделать это для всех документов, которые в настоящее время имеют (2,3,4,5,6), как их класс? Я могу легко распространить его на другие классы, если я это понимаю. Я также пробую за d в ​​20_newsgroups: , если 20_newsgroups.target в [2,3,4,5,6], 20_newsgroups.target = '1'.But this показывает, что «значение истинности массива с более чем одним элементом недвусмысленно, используйте a.any() или a.all». Вы ожидаете.Как классифицировать 20 групп новостей, набор данных от 20 до 6

ответ

1

Я не уверен, что я понимаю ваш вопрос, но вы, похоже, хотите присоединиться к категориям в суперкатегории. Это не должно быть трудно сделать, но на более позднем этапе эксперимента это не так оптимально. Если вы хотите уменьшить количество категорий, сделайте это, присоединившись к некоторым категориям в качестве самого первого шага вашего процесса. Таким образом, аналогичные образцы из разных (оригинальных) категорий не будут приводить к путанице на этапе обучения (при условии, конечно, что они теперь относятся к одной и той же новой категории), тем самым создавая лучший общий результат.

+0

Да, это именно то, что я хочу делать. Есть ли лучший способ сделать это? Спасибо – Umar

+0

Лучше, чем я только что предложил? Почему я должен опубликовать подпункт? Почему это неприемлемо? – tripleee