Я думаю, что ответ зависит от того, что именно представляет собой ваше количество процентов. Если это сводная информация о том, насколько схожие являются авторскими документами друг к другу, то некоторое распределение по сходству документа внутри автора, вероятно, является вашим лучшим способом сравнения этого количества между авторами.
Вы можете сохранить и нарисовать сходство косинусов по документам автора как плотность, например, в дополнение к вашей стратегии суммирования этого распределения с использованием среднего значения. Чтобы зафиксировать дисперсию, я бы также характеризовал стандартное отклонение этого сходства.
Я бы с осторожностью относился к коллизионному сходству внутри автора как к «самоплагиату». Косинус-подобие вычисляет меру расстояния между векторными представлениями мешков слов и не рассматривается как метод идентификации «плагиата». Кроме того, есть очень уничижительные оттенки термина «плагиат», что означает нечестное представление чужих идей как ваших собственных. (Я даже не считаю, что термин «само-плагиат» имеет смысл на всех, но у меня есть академические коллеги, которые не согласны.)
Добавлено:
Рассмотрим в textreuse package для R, то разработанный для текстового анализа повторного использования, которое вы ищете.
Я не думаю, что расстояние Левенштейна - это то, что вы ищете. Как указывает Wikipedia page, LD между котенком и сидит составляет 3, но это означает абсолютно ничего в материальных терминах относительно их семантических отношений или одного из примеров «повторного использования» другого. Можно было бы аргументировать, что LD на основе слов может показать повторное использование, но это не так, как большинство алгоритмов, например. http://turnitin.com реализовать обнаружения для плагиата.
спасибо. Некоторые из моих коллег также не согласны с тем, что я могу использовать слово self-plagiarism, и я не могу использовать его в окончательной версии статьи. Я анализирую судебные решения по уголовным делам. Некоторые судьи имеют высокую производительность, так что они решают в три раза больше, чем другие. Моя гипотеза заключается в том, что производительность положительно коррелирует со скоростью сходства между собственными решениями судей, поскольку они могут использовать текст своих предыдущих решений по новым делам, не тщательно изучая их. Как вы думаете, я могу использовать расстояние Левенштейна в этом случае? –