Я очень впечатлен тем, как работают плагиат-шашки (например, сайт Turnitin). Но как они это делают? Очень эффективным способом я новичок в этой области, таким образом, есть ли какой-либо алгоритм сопоставления слов или что-то похожее на то, что используется для обнаружения одинаковых предложений?
спасибо.Алгоритмы в устройствах обнаружения плагиата
-4
A
ответ
2
Я уверен, что многие системы обнаружения плагиата реального мира используют более сложные схемы, но общий класс проблемы обнаружения того, как далеко друг от друга находятся две вещи, называется edit distance. Эта ссылка включает ссылки на многие распространенные алгоритмы, используемые для этой цели. Суть эффективно отвечает на вопрос «Сколько изменений я должен выполнить, чтобы превратить один вход в другой?». Задача для систем реального мира заключается в эффективном выполнении этого решения на большом корпусе. Связанная с этим проблема - это longest common subsequence, которая также может быть полезна для таких схем, чтобы идентифицировать фрагменты, которые скопированы дословно.
[WikiPedia] (http://en.wikipedia.org/wiki/Plagiarism_detection) не помогло? – Till