Я работаю над категоризацией с одинарной меткой с набором данных reuter-21578, однако набор данных по умолчанию является многозвенным. Многие исследователи удалили многоуровневые экземпляры из набора данных, и их количество экземпляров в категориях reuters сильно отличается от моего. Как я могу удалить весь экземпляр, относящийся к нескольким категориям в наборе данных? Могу ли я использовать weka или Rapidminer для этой цели, чтобы идентифицировать многозначные экземпляры в наборе данных?Преобразование многоуровневого набора данных в единую метку?
Пример:
Input Dataset = {x1, x2, x3, x4, x5, x6, x7, x8, x9, x10} Labels = {acq, earn, grain , corn} Classification Results = x1, x2, x3 = acq x4, x5 = earn x6, x7, x8 = grain x9 = grain, corn x10 = grain, acq Output Dataset (what i want) = output dataset = {x1, x2, x3, x4, x5, x6, x7, x8} output labels = {acq, earn, grain, corn} Classification Results = x1, x2, x3 = acq x4, x5 = earn x6, x7, x8 = grain **OR** {This is what i assume i have achieved with PolynomiaByBinomial Operator } output dataset = {x1, x2, x3, x4, x5, x6, x7, x8, x9, x10} output labels = {acq, earn, grain, corn} Classification Results = x1, x2, x3 = acq x4, x5 = earn x6, x7, x8, x9, x10 = grain x9 = grain x10 = grain
Заранее спасибо
Как правило, можно использовать RapidMiner (в том числе Weka), но я не совсем понимаю этот вопрос, чтобы дать точный ответ. Не могли бы вы привести пример? – awchisholm
@awchisholm У меня есть набор данных reuters-21578, это набор данных с несколькими метками по умолчанию, когда некоторые документы могут принадлежать более чем одной категории, например, документы в категории «зерно» и «кукуруза» и т. Д. Я хочу преобразовать этот мульти- label в набор данных с одной меткой, удалив все документы, принадлежащие более чем одной категории. – Kashif
Значит, вы имеете в виду, что у вас несколько столбцов. Каждый столбец является возможной меткой в своем собственном праве. Вы хотите удалить все, кроме одного столбца ярлыков, и сохранить все строки? – awchisholm