2014-02-11 2 views
4

Примеры, которые я видел для Encog Framework, описывают, как классифицировать числовые данные в текстовые данные. Например, следующие данные, используемые для классического Iris набора данных:Encog Framework Non-Numeric Example, Text Classification

"sepal_l","sepal_w","petal_l","petal_w","species" 
5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
4.7,3.2,1.3,0.2,Iris-setosa 
4.6,3.1,1.5,0.2,Iris-setosa 
5.0,3.6,1.4,0.2,Iris-setosa 
5.4,3.9,1.7,0.4,Iris-setosa 

Существуют ли какие-либо простые примеры того, как нормализовать и использовать текст с помощью Encog, например, данные, как это (?):

"subject","body","Spam" 
"This is the subject","This is the body",1 
"This message is not spam","Lorem ipsum dolor",0 
etc... 
+1

http://ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf Классификаторы работают с числовыми данными. Существует множество подходов, таких как выше, для выбора функций из текста, но все они являются подробными алгоритмами, нет простого подхода, о котором я знаю. – Steve

+2

Спасибо за ссылку. Я уже знаю, как это сделать в Python, но есть некоторые методы sklearn и другие пакеты, которые облегчают преобразование текста в числа и избавление от стоп-слов и других полезных вещей, подобных этому. Мне было интересно, может ли, в частности, ** Encog Framework ** была такая поддержка, если бы мне пришлось настраивать ее. – user1477388

ответ

1

В настоящее время Encog не предоставляет абстракции более высокого уровня для кодирования чистого текста. Входы в нейроны Encog - это просто числовые значения, которые вычисляются против весовой матрицы. Encog может кодировать категориальные текстовые значения.