Я начал опробовать приложение Weka GUI, чтобы узнать, как я хочу создать свой текстовый классификатор, и я успешно создал и сохранил модель с помощью графического интерфейса.Weka StringToWordVector Filter - реализация в Java
Теперь я хочу реализовать классификатор в Java-коде. Но я не могу настроить параметры стоп-слов и токенизатора фильтра StringToWordVector в коде, как это было в графическом интерфейсе. (Смотрите скриншот.)
(Конечно, без игнорируемых слов обработчика установлены в NULL.)
Я знаю, что я могу загрузить модель, я создал и спас от GUI , в код. Но мне нужно реализовать фильтр в Java.
Я пытался использовать код здесь: Different results in Weka GUI and Weka via Java code В основном, эта часть (конечно, после изменения пути):
String opt = "-W -P 0 -M 5.0 -norm 1.0 -lnorm 2.0 -lowercase -stoplist - stopwords C:\\Users\\Fernando\\workspace\\GPCommentsAnalyzer\\pt-br_stopwords.dat -tokenizer \"weka.core.tokenizers.NGramTokenizer -delimiters ' \\r\\n\\t.,;:\\\'\\\"()?!\' -max 2 -min 1\" -stemmer weka.core.stemmers.NullStemmer";
Но, по-прежнему не работает.
Я не могу найти документацию по этой теме в любом месте. Любая помощь приветствуется!
(я использую Weka версии 3.7.12)
http://imgur.com/VVhCisZ Я попробовал ваше предложение, но ошибки в прилагаемом изображении пришли. Что я делаю не так? – user1910524
@ user1910524 Я не вижу ваше изображение. –
Прошу прощения, я редактировал свой комментарий сейчас. – user1910524