Мне нужен файл обучения weka (arff), чтобы иметь имя (String) и массив строк, связанных с этим именем, так что классификатор связывает имя с этими строками, когда я запускаю его на любом текст. Для этой задачи, как сделать атрибут в weka, который является массивом String? Или есть альтернативный способ сделать это?Атрибут массива String в weka
(я использую Наивный байесовский классификатор)
Например: Дипики Шаха, запоем, смешные, довольно
Так что, если у меня есть предложение с любым из приведенных выше строк с Дипиком Shah , он должен классифицировать предложение как о Дипика-шахе.
EDIT: Мне нужно классифицировать предложение как имя, используя слова и фразы в предложении. Поэтому я даю набор строк, связанных с именем и с каким именем они связаны. Классификатор должен найти класс из предложения. Или, альтернативно, после того, как я извлекаю функции из предложения (предположим, что я выделил функции).
Разве ваше имя является классом, который вы хотите предсказать для массива строк? Можете ли вы представить, по крайней мере, один пример, чтобы мы могли получить четкое представление. – drp
Да, это класс. – zoozoofreak
Тогда просто используйте фильтр StringToWordVector (я полагаю, что ваш строковый массив - это массив слов типа «Ты хороший парень») на вашем массиве String. В классе StringToWordvector вы можете просто преобразовать массив String (предложение, состоящее из одного или нескольких слов) в N-граммах, где вы можете указать любое значение класса N через класс Tokenizer. Вам нужно указать массив String как атрибут String n arff file. Включите его значение («Вы хороший парень») в кавычки в файле arff. Если вы не можете понять этот комментарий, дайте мне знать, я подробно расскажу об anser в разделе ответов. – drp