0

Я работаю над категоризацией с одинарной меткой с набором данных reuter-21578, однако набор данных по умолчанию является многозвенным. Многие исследователи удалили многоуровневые экземпляры из набора данных, и их количество экземпляров в категориях reuters сильно отличается от моего. Как я могу удалить весь экземпляр, относящийся к нескольким категориям в наборе данных? Могу ли я использовать weka или Rapidminer для этой цели, чтобы идентифицировать многозначные экземпляры в наборе данных?Преобразование многоуровневого набора данных в единую метку?

Пример:

 

    Input Dataset = {x1, x2, x3, x4, x5, x6, x7, x8, x9, x10} 
    Labels = {acq, earn, grain , corn} 


    Classification Results = 

    x1, x2, x3 = acq 
    x4, x5 = earn 
    x6, x7, x8 = grain 
    x9 = grain, corn 
    x10 = grain, acq 

    Output Dataset (what i want) = 
    output dataset = {x1, x2, x3, x4, x5, x6, x7, x8} 
    output labels = {acq, earn, grain, corn} 

    Classification Results = 

    x1, x2, x3 = acq 
    x4, x5 = earn 
    x6, x7, x8 = grain 

    **OR** 
    {This is what i assume i have achieved with PolynomiaByBinomial Operator } 
    output dataset = {x1, x2, x3, x4, x5, x6, x7, x8, x9, x10} 
    output labels = {acq, earn, grain, corn} 
    Classification Results = 

    x1, x2, x3 = acq 
    x4, x5 = earn 
    x6, x7, x8, x9, x10 = grain 
    x9 = grain 
    x10 = grain 

Заранее спасибо

+1

Как правило, можно использовать RapidMiner (в том числе Weka), но я не совсем понимаю этот вопрос, чтобы дать точный ответ. Не могли бы вы привести пример? – awchisholm

+0

@awchisholm У меня есть набор данных reuters-21578, это набор данных с несколькими метками по умолчанию, когда некоторые документы могут принадлежать более чем одной категории, например, документы в категории «зерно» и «кукуруза» и т. Д. Я хочу преобразовать этот мульти- label в набор данных с одной меткой, удалив все документы, принадлежащие более чем одной категории. – Kashif

+0

Значит, вы имеете в виду, что у вас несколько столбцов. Каждый столбец является возможной меткой в ​​своем собственном праве. Вы хотите удалить все, кроме одного столбца ярлыков, и сохранить все строки? – awchisholm

ответ

0

Самый простой способ разбить набор данных в двоичные проблемы. Если, например, у вас есть наборы данных,

text1: science 
text2: sports, politics 

Перерыв набора данных в 3-х наборов данных:

dataset1 (science): text1:true, text2:false 
dataset2 (sports): text2:false, text2:true 
dataset3 (science): text1:false, text2:true 

Создать 3 бинарных классификаторов, по одному для каждого класса, используйте соответствующие наборы данных, чтобы обучить их, и объединить результаты ,