настоящее время я использую метод метод get_close_matches из difflib перебирать список 15000 строк, чтобы получить ближайший матч против другого списка приблизительно 15000 строк:Лучшее нечеткое сопоставление производительности?
a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cutoff=.85)
Он принимает .58 секунды на значение, которое означает, что его займет 8,714 секунды или 145 минут, чтобы закончить цикл. Есть ли другая библиотека/метод, который может быть быстрее или способ улучшить скорость для этого метода? Я уже пробовал преобразовывать оба массива в нижний регистр, но это только приводило к небольшому увеличению скорости.
Вы можете попытаться удалить элемент из списка b после матча – user1209304