Мы уже рассказывали про редакционные расстояния, с помощью которых сравнивают близость строк и вычисляют степень их похожести. Сегодня рассказываем о самом распространенном редакционном расстоянии — расстоянии Левенштейна
Редакционные расстояния — это количество операций, которые нужно совершить, чтобы из одного слова или фразы получить другую. Подробно о редакционных расстояниях мы писали здесь. Расстояние Левенштейна – одно из самых известных редакционных расстояний. Это минимальное число замен, вставок и удалений одного символа, с помощью которых можно превратить одну строку в другую.
Попробуем посчитать расстояние Левенштейна между словами «карета» и «ракета».
Чтобы превратить карету в ракету, нужно:
Расстояние Левенштейна между словами «карета» и «ракета» равно двум.
Усложняем задачу. У нас есть строка «с крипкол иса» и мы хотим понять, на что она больше похожа, на «скрип колеса», «скрипка леса» или «скрипка лиса». Посчитаем расстояние Левенштейна.
Удалим пробел после «с» → вставим пробел после «п» → удалим пробел после «л» → заменим вторую «и» на «е».
ИТОГО: 4 операции = 4 балла штрафа, т.е. расстояние Левенштейна между «с крипкол иса» и «скрип колеса» равно четырем.
Удалим пробел после «с» → вставим пробел после «а» → удалить пробел после «л».
ИТОГО: 3 операции = 3 балла штрафа, т.е. расстояние Левенштейна между «с крипкол иса» в «скрипка лиса» равно трем.
Вы можете попробовать посчитать расстояние Левенштейна для строк «с крипкол иса» и «скрипка леса» и убедиться, что оно будет равно четырем.
Получается, что «с крипкол иса» ближе всего к «скрипка лиса».
Какие еще бывают Левенштейны?
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…