2015-05-25 5 views
-3

У меня есть 4 текстовых файла, которые используются для представления категорий экономики, политики, здоровья и спорта. Каждый файл содержит 400 арабских слов и частоту каждого слова который использовался для представления каждой категории.конвертировать текстовый файл, содержащий слова и их частоты, в файл arff, подходящий для weka

например: health.txt содержит

اصابة 113

6 غذائية

6 طبيعي . .

Я использовал Simple CI для создания arff. выходной файл ARFF как следующий: @relation C__finaloutput

@attribute строка

@attribute @@ класс @@ {экономика, здоровье, политика, спорт}

@data

'إصابة 113 \ r \ n غذائية 6 \ r \ n طبيعي 6 \ r \ n مريضا 6 \ r \ n', здоровье

.

.

проблемы: 1.how weka распознает число в файле arff как частоту каждого слова?

2. Как использовать классификатор SMO или другие классификаторы, такие как j48, которые не обрабатывают строковые атрибуты?

+0

Я не понимаю, в чем проблема. Мы не видели ваш код, поэтому мы не можем найти проблему. Кажется, вы не знаете, что хотите. Я думаю, вы уже знаете формат файла arff (довольно простой). Где вы застряли? (Запрашивать внешние ресурсы-подобные инструменты - вне темы на SO. Просить предложений о лучших форматах файлов (и других вещах) также не по теме.) –

+0

Я изменил вопрос – In2015

ответ

0

Weka может загружать CSV-файлы из диалогового окна «Открыть файл» Explorer, from the command line или in code. Выше, ваш файл содержит пробел или вкладку в качестве разделителя, а не запятую, но CSVLoader тоже может справиться с этим. См. Параметр -F, описанный в the docs for CSVLoader. Или вы можете просто преобразовать пробелы (или вкладки) в запятые, используя различные методы, такие как sed -e 's/ /,/ health.txt > health.csv.

+0

Командная строка работала для меня только в weka v3 +0,6. – knb

+0

Я сделал это, используя командную строку для преобразования текстов в файл arff, но 1.how weka распознает число в файле arff как частоту каждого слова? 2. Как использовать классификатор SMO или другие классификаторы, такие как j48, которые не обрабатывают строковые атрибуты? – In2015