Cool .. большой старт !!.
Прежде чем вы начнете прыгать к реализации, я бы предложил, пожалуйста, изучите некоторые основы.
В любом случае, вот ответы на ваши вопросы. !!
особенность: как следует из названия, в ваших данных есть что-то, что может снизить точность вашей модели. как слова, смешанные с малым и капитальным характером, цифры, особый характер, линии заканчиваются каким-то особым характером и т. д., которые после создания характеристик дают больше точности !! но опять же это необходимо, все зависит от того, какой тип данных у вас есть!
язык в векторы: любой тип языка, в конце это текст (здесь в вашем случае). мы можем дать векторное представление слову или символу. это векторное представление может быть получено одним горячим вектором или с использованием заранее построенных методов, таких как word2vec или перчатка.
один горячий вектор: - допустим, у вас есть 100 слов из вашего набора учебных материалов. затем создайте k-мерный вектор для каждого слова. где k - общее количество слов. словом слова по их позиции персонажа. и на основе thire упорядоченного создать вектор с сохранением их индекс 1 и остальных как 0.
ex: [1 0 0 0 0 ....] - word1
[0 1 0 0 0 ....] - word2
[0 0 0 0 0 ...1] - word100
функции без слов: следовать тому же правилам, как словесные особенности имя клиента продукта: - создать один горячий вектор, как они обычно не используются в тексте. и они не имеют смысла в реальной жизни.
как выбрать NN: - это зависит от того, чего вы хотите достичь. NN может использоваться многими способами для многих целей.
не хватает данных: - это снова зависит от ваших данных. !! если ваши данные имеют более распространенный шаблон, а в будущих данных также будут отображаться эти шаблоны! тогда все еще нормально использовать NN. иначе я не рекомендую использовать NN.
Удачи !!
Вы можете задать свой вопрос здесь, чтобы получить дополнительные ответы: http://stats.stackexchange.com/. Вам нужно будет сделать обработку естественного языка (NLP), в Интернете есть много примеров. Попробуйте выполнить поиск функции NLP в googling. Удачи! – Hugo