Некоторые стихи написаны века назад, и с тех пор произношение слов поменялось. Поэтому вместо того, чтобы искать случаи точного совпадения звуков, автор исследования создал алгоритм, который рассчитывает вероятность рифмы путем анализа текста.
Первоначально используется обычная техника извлечения слов, которые часто повторяются на концах строк, чтобы найти рифмованные пары. Затем найденные рифмующиеся слова фонетически транскрибируются, и их признаки используются для машинного обучения. Алгоритм показал себя на практике: в чешском датасете обнаружил 95% рифм, во французском и английском — примерно 85%.
Также добавили модели для разметки рифмы на немецком, испанском, голландском и русском языках. Инструмент можно обучить для любого языка, нужен только корпус стихотворений. Говоря о будущем изобретения, автор упоминает, что есть много возможностей для обновлений. Они будут зависеть от новых целей для исследований: будет ли это изучение фиксированных форм рифмы в некоторых типах стихотворений или создание словаря рифм — пока неясно.
Источник: RhymeTagger GitHub