Расстояние Левенштейна

Как поймать бактерию на плагиате: чем поиск переноса генов похож на NLP

Не только филологов и юристов волнует проблема авторства. Живые организмы тоже могут списывать друг у друга — прямо из генетического кода! Рассказываем, как и зачем биологи ищут в геномах фрагменты ДНК, заимствованные у других организмов, и какие компьютерные алгоритмы для этого используются.

редакционное расстояние

Расстояние Левенштейна

Мы уже рассказывали про редакционные расстояния, с помощью которых сравнивают близость строк и вычисляют степень их похожести. Сегодня рассказываем о самом распространенном редакционном расстоянии — расстоянии Левенштейна

Что такое редакционное расстояние

Как понять, насколько близки две строки формально? Какое расстояние от слова «карета» до слова «ракета»? Линейкой здесь не измеришь, на помощь приходят редакционные расстояния. Рассказываем, что такое редакционное расстояние, как они работают и какие виды редакционных расстояний существуют

Как находить похожие слова с помощью расстояния Левенштейна?

Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна