Чешский цифровой стиховед Петр Плехач разработал и опубликовал библиотеку Python под названием rhymetagger, которая предназначена для поиска рифмы в стихотворениях. Разработанный алгоритм протестировали на текстах на английском, французском и чешском языках
Иллюстратор: Женя Родикова
Некоторые стихи написаны века назад, и с тех пор произношение слов поменялось. Поэтому вместо того, чтобы искать случаи точного совпадения звуков, автор исследования создал алгоритм, который рассчитывает вероятность рифмы путем анализа текста.
Первоначально используется обычная техника извлечения слов, которые часто повторяются на концах строк, чтобы найти рифмованные пары. Затем найденные рифмующиеся слова фонетически транскрибируются, и их признаки используются для машинного обучения. Алгоритм показал себя на практике: в чешском датасете обнаружил 95% рифм, во французском и английском — примерно 85%.
Также добавили модели для разметки рифмы на немецком, испанском, голландском и русском языках. Инструмент можно обучить для любого языка, нужен только корпус стихотворений. Говоря о будущем изобретения, автор упоминает, что есть много возможностей для обновлений. Они будут зависеть от новых целей для исследований: будет ли это изучение фиксированных форм рифмы в некоторых типах стихотворений или создание словаря рифм — пока неясно.
Источник: RhymeTagger GitHub
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…