Я работаю над практической проблемой машинного обучения как упражнения. Мне просто нужна помощь в формулировании моей проблемы.Атрибуция авторства с использованием машинного обучения
У меня есть текст из 20 книг известного старого автора. существует еще 5 книг, которые обсуждались на протяжении всей истории, если они принадлежат одному автору или нет.
Я думаю о лучшем способе представлять эту проблему. Я подумываю о том, чтобы использовать слова с сумкой слов, чтобы найти наиболее важные слова, используемые автором.
Должен ли я рассматривать его как проблему наивного байеса (спама/ветчины), или я должен использовать классификацию KNN (автор/неавтор) для определения класса каждого документа. Есть ли другой способ сделать это?