Что такое StringToWordVector? Все, что я знаю об этом, это то, что он преобразует строковый атрибут в несколько атрибутов. Но в чем преимущество этого и как объект класса StringToWordVector служит фильтром для FilteredClassifier? Как он стал фильтром?StringToWordVector в Weka
ответ
StringTOWordVector - это класс фильтра в weka, который фильтрует строки в N-граммах с использованием класса WOrdTokenizer. Это помогает нам предоставлять строки в виде N-граммов для классификатора. Помимо просто токенинга, он также предоставляет другие функции, такие как удаление стоп-слов, взвешивание слов с помощью TFIDF, выходное количество слов, а не просто указание присутствия слова или нет, скорость обрезки, сокращение, строчное преобразование слов и т. Д. Подробное объяснение этого класса может быть найдено по адресу http://weka.sourceforge.net/doc.dev/weka/filters/unsupervised/attribute/StringToWordVecing.html Так что в основном это обеспечивает основные функции, которые помогают нам точно настроить набор тренировок в соответствии с требованиями перед обучением.
Однако, если кто-то, кто хочет выполнить тестирование вместе с обучением, должен использовать классификатор партии или фильтрованный классификатор для обеспечения совместимости поезда & Набор тестов. Это связано с тем, что если мы пройдем по поездам & тест отдельно через StringToWordVector, тогда он будет генерировать различную лексику для поезда & тестового набора. Чтобы решить, какой из методов следует отказаться от пакетного заполнения & Отфильтрованный классификатор следует за Nihil Obstat по адресу http://jmgomezhidalgo.blogspot.in/2013/01/text-mining-in-weka-chaining-filters.html
Надеюсь, это поможет.