У меня есть 4 текстовых файла, которые используются для представления категорий экономики, политики, здоровья и спорта. Каждый файл содержит 400 арабских слов и частоту каждого слова который использовался для представления каждой категории.конвертировать текстовый файл, содержащий слова и их частоты, в файл arff, подходящий для weka
например: health.txt содержит
اصابة 113
6 غذائية
6 طبيعي . .
Я использовал Simple CI для создания arff. выходной файл ARFF как следующий: @relation C__finaloutput
@attribute строка
@attribute @@ класс @@ {экономика, здоровье, политика, спорт}
@data
'إصابة 113 \ r \ n غذائية 6 \ r \ n طبيعي 6 \ r \ n مريضا 6 \ r \ n', здоровье
.
.
проблемы: 1.how weka распознает число в файле arff как частоту каждого слова?
2. Как использовать классификатор SMO или другие классификаторы, такие как j48, которые не обрабатывают строковые атрибуты?
Я не понимаю, в чем проблема. Мы не видели ваш код, поэтому мы не можем найти проблему. Кажется, вы не знаете, что хотите. Я думаю, вы уже знаете формат файла arff (довольно простой). Где вы застряли? (Запрашивать внешние ресурсы-подобные инструменты - вне темы на SO. Просить предложений о лучших форматах файлов (и других вещах) также не по теме.) –
Я изменил вопрос – In2015