-2

Я работаю над практической проблемой машинного обучения как упражнения. Мне просто нужна помощь в формулировании моей проблемы.Атрибуция авторства с использованием машинного обучения

У меня есть текст из 20 книг известного старого автора. существует еще 5 книг, которые обсуждались на протяжении всей истории, если они принадлежат одному автору или нет.

Я думаю о лучшем способе представлять эту проблему. Я подумываю о том, чтобы использовать слова с сумкой слов, чтобы найти наиболее важные слова, используемые автором.

Должен ли я рассматривать его как проблему наивного байеса (спама/ветчины), или я должен использовать классификацию KNN (автор/неавтор) для определения класса каждого документа. Есть ли другой способ сделать это?

ответ

0

Я думаю, что Наивный Байес может дать вам идеи. Еще один способ может быть, узнать особенности, которые разделяют такие книги ex
1. Сложность слов, некоторые авторы легко понять и использовать общие слова, я намекаю на IDF (частота обратного документа)
2. Некоторые слова могут даже не существует в свое время, например, «самоубийство», «мобильное» и т. д.

Постарайтесь найти множество таких функций, а также обучать дискриминационный классификатор.