Примеры, которые я видел для Encog Framework, описывают, как классифицировать числовые данные в текстовые данные. Например, следующие данные, используемые для классического Iris набора данных:Encog Framework Non-Numeric Example, Text Classification
"sepal_l","sepal_w","petal_l","petal_w","species"
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
Существуют ли какие-либо простые примеры того, как нормализовать и использовать текст с помощью Encog, например, данные, как это (?):
"subject","body","Spam"
"This is the subject","This is the body",1
"This message is not spam","Lorem ipsum dolor",0
etc...
http://ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf Классификаторы работают с числовыми данными. Существует множество подходов, таких как выше, для выбора функций из текста, но все они являются подробными алгоритмами, нет простого подхода, о котором я знаю. – Steve
Спасибо за ссылку. Я уже знаю, как это сделать в Python, но есть некоторые методы sklearn и другие пакеты, которые облегчают преобразование текста в числа и избавление от стоп-слов и других полезных вещей, подобных этому. Мне было интересно, может ли, в частности, ** Encog Framework ** была такая поддержка, если бы мне пришлось настраивать ее. – user1477388