Статья в Википедии довольно свободна с терминологией. В «естественном языке» нет таких вещей, как «струны». На естественном языке есть фонемы, которые могут быть представлены письменными символами и комбинациями символов.
Некоторые комбинации символов - это остатки исторических условностей, которые сохранились в современную эпоху, как в современном английском «грубом», где «gh» может звучать как -f- или вообще не звучать. Мне кажется, что при сосредоточении на сырых «строках» алгоритм должен быть агностическим относительно исторической взаимосвязи языка и орфографической конвенции, что приводит к некоторым произвольным метрикам всякий раз, когда комбинация символов коррелирует с одной фонемой. Как это измерить «грубо» на «ruf»? Или «через», чтобы «пройти»? Или немецкий o-umlaut для «oe»?
В вашем случае -y- можно обменяться фонетически и орфографически с -ij-. Итак, что это за алгоритм, две удаления, за которыми следует вставка, или единственное удаление -j- или of -i-, за которым следует транспонирование оставшегося символа в -y-? Или происходит слияние, а за слиянием следует транспозиция?
Я бы порекомендовал вам использовать другой неиспользуемый комбинированный символ для -ij- перед применением алгоритма, возможно U00EC, латинской буквы i с серьезным акцентом.
Как алгоритм обрабатывает многокодированные символы?
Что делать, если вы транскрибировали голландские фонемы и затем занимаете дистанцию? – dnagirl
AFAIK тогда расстояние может измениться по сравнению с «оригинальными» двумя текстами. –