Я знаком с модулем nltk.metrics.distance
python, который обычно используется для вычисления расстояния редактирования двух строк.Расстояние на основе токенов в Python?
Меня интересует функция, которая вычисляет такое расстояние, но не char-wise, как обычно, но токен-мудрый. Под этим я подразумеваю, что вы можете заменять/добавлять/удалять только целые токены (вместо символов).
Пример регулярного расстояния редактирования и моей желаемой лексического версии:
> char_dist("aa bbbb cc",
"aa b cc")
3 # add 'b' character three-times
> token_dist("aa bbbb cc",
"aa b cc")
1 # replace 'bbbb' token with 'b' token
Есть уже некоторые функции, которые могут вычислить token_dist
в Python? Я бы предпочел использовать что-то уже реализованное и протестированное, чем писать свой собственный код. Спасибо за советы.
здорово! Спасибо – petrbel