Существующих Реализации наивных байесовского
Вы, вероятно, будете лучше просто использовать одну из существующих пакетов, которые поддерживают классификацию документов с использованием наивного Байеса, например:
Python - Для того, чтобы сделать это с помощью на основе Python Natural Language Toolkit (NLTK), см. раздел Document Classification в свободном доступе NLTK book.
Рубин - Если Руби больше ваша вещь, вы можете использовать Classifier камень. Вот пример кода, который определяет whether Family Guy quotes are funny or not-funny.
Perl - Perl имеет модуль Algorithm::NaiveBayes, в комплекте с фрагментом использования образца в пакете synopsis.
C# - C# программисты могут использовать nBayes. На домашней странице проекта есть пример кода для простого классификатора спама и не-спама.
Java - Java люди имеют Classifier4J. Вы можете увидеть фрагмент кода обучения и подсчета очков here.
Бутстрапирование Классификация из Ключевых слов
Это звучит, как вы хотите, чтобы начать с набором ключевых слов, которые известных кий для определенных того, а затем использовать эти ключевые слова, чтобы bootstrap a classifier.
Это разумная идея. Взгляните на статью Text Classication by Bootstrapping with Keywords, EM and Shrinkage МакКаллум и Нигам (1999). Следуя этому подходу, они смогли улучшить точность классификации с 45%, полученной ими, используя только жестко закодированные ключевые слова до 66%, используя загрузочный классификатор Naive Bayes. По их данным, последние близки к уровню согласия людей, так как люди соглашались друг с другом о документах на этикетках в 72% случаев.
Разработчики C# также могут использовать [Accord Framework.NET] (http://accord-framework.net/).Документация Наивного Байеса [здесь] (http://accord-framework.net/docs/html/N_Accord_MachineLearning_Bayes.htm) –