2014-09-05 2 views
2

Я использую метод difflib SequenceMatcher (ratio()), чтобы определить сходство между текстовыми файлами. В то время как difflib относительно быстро сравнивает небольшой набор текстовых файлов, например. 10 файлов по 70 кб в среднем по сравнению друг с другом (46 сравнений) занимает около 80 секунд.Python's difflib SequenceMatcher speed up

Проблема в том, что у меня есть коллекция из 3000 файлов txt (в среднем 75 кб), необработанная оценка того, сколько времени SequenceMatcher нужно для завершения сравнения, составляет 80 дней!

Я пробовал методы «real_quick_ratio()» и «quick_ratio()», но они не соответствуют нашим потребностям.

Есть ли способ ускорить процесс сравнения? Если нет, есть ли какой-либо другой более быстрый метод для выполнения такой задачи? Даже если это не в Python.

ответ