Филология

Как измерить оригинальность LLM-сюжетов и почему они (пока) проигрывают человеческим

Если бы русские народные сказки создавались сейчас, то среди волшебных предметов, кроме шапки-невидимки, скатерти-самобранки и сапогов-скороходов, у героев были бы VR-очки, способные «всю правду доложить», онлайн-переводчик с волчьего языка и генератор царевых отгадок. Правда, все эти образы придуманы человеком, а может ли LLM придумать что-то интересное в области вымышленных нарративов? Разбираемся, насколько оригинальны сюжеты, которые предлагает ИИ

Зачин. Жили-были две LLM…

модели GPT-4 и LLaMA-3*. И дали им ученые задание сгенерировать множество альтернативных продолжений для одной и той же истории.

В качестве затравок использовались написанные людьми рассказы с Reddit (WritingPrompts), а также описания сюжетов телевизионных эпизодов из Википедии. Для каждой исходной истории с помощью LLM генерировалось множество альтернативных продолжений.

Завязка. А ученые тем временем…

замыслили поймать модели на повторении и перекладывании из пустого в порожнее.

Чтобы люди смогли оценить оригинальность созданных продолжений, команда исследователей из Microsoft [1] ввела метрику Sui Generis. Она измеряет уникальность сюжетного мотива среди других, сгенерированных с помощью одного и того же запроса к языковой модели.

Шаблон запроса к LLM для измерения метрики Sui Generis [1]

Метрика Sui Generis была протестирована на 100 рассказах, которые состояли примерно из 3700 сегментов. Подсчитывалось, сколько раз исходный сегмент истории повторяется на нарративном уровне в альтернативных продолжениях. 

Значение показателя уникальности соотносилось с оценкой уровня неожиданности: чем уникальнее сюжетный мотив, тем он неожиданнее, и наоборот. Сюжетный ход с высоким показателем уникальности часто соответствует ключевым моментам в развитии истории. И напротив, мотивы с низкой уникальностью не влияют на развитие сюжета и с позиции читательских ожиданий считаются «проходными».

Кульминация. И устроили ученые соревнование…

по продолжению историй между людьми и LLM.

Для сравнения было использовано по 100 текстов каждого типа. Как видно на графиках, тексты, написанные людьми, по обоим наборам данных (WritingPrompts и Википедия) получают по метрике Sui Generis значительно более высокие оценки уникальности, чем истории, сгенерированные LLM. 

Кроме того, тексты отличаются по темпу повествования. Истории, написанные людьми, как правило, имеют более медленный темп, плавно вводят сюжетные повороты и подготавливают читателя к развязке. В историях, сгенерированных LLM, повествовательный темпоритм ускорен, сюжетные линии не получают полноценного развития, что приводит к резким и неубедительным развязкам. 

Сравнительные графики оригинальности сюжетных ходов, созданных людьми и LLM [1]

Для оценки неожиданности сюжетов была привлечена независимая группа экспертов. На графике рассеяния показана взаимосвязь между оценками людей и показателями Sui Generis. Оценки по минимальным и максимальным значениям у автоматической метрики и людей совпадают (оценки по оси Y попадают в интервал 1,4 вокруг оценок по оси X). Вместе с тем средние по версии Sui Generis показатели воспринимаются людьми как более неожиданные.

Средняя оценка неожиданности, данная людьми и метрикой Sui Generis [1]

Развязка. А потом оценили работу LLM…

и обнаружили, что оригинальность сгенерированных сюжетных мотивов невысока.

Хотя отдельный текст LLM и выглядит оригинальным, сравнительный анализ нескольких текстов показывает типичность сюжетных структур. Языковые модели (по крайней мере те, что исследованы в этой работе) склонны к шаблонности, и их продолжения историй часто содержат повторяющиеся комбинации сюжетных элементов. В то же время «человеческие» тексты демонстрируют более высокий уровень уникальности и неожиданности. 

Модели GPT-4 и LLaMa-3* показали схожие результаты в задаче по генерации художественных текстов, а метрика Sui Generis оказалась полезным инструментом для оценки уникальности и неожиданности LLM-нарративов.

Эпилог. Кафку пока не превзойти

GPT-4 попросили продолжить рассказ Ф. Кафки «И не надейся». LLM сделала 100 генераций, в которых сюжетные мотивы часто повторялись. Так, ровно в половине случаев, полицейский указывает повернуть налево на втором повороте, а в 18 из 100 генерациях рассказчику нужно повернуть направо. Хоть как-то приблизиться к варианту Кафки (на вопрос рассказчика полицейский говорит: «Сдавайся!») GPT-4 не удалось.

Промт, содержащий отрывок из рассказа Ф. Кафки (в переводе на английский), и пять продолжений рассказа от GPT-4 [1]

Так что сказочке, созданной человеком, пока точно не конец, а кто прочитал статью до конца — молодец!

*Компания Meta, выпустившая модель Llama, признана экстремистской и запрещенной на территории РФ.

Источник: Xu W., Jojic N., Rao S. et al. Echoes in AI: Quantifying lack of plot diversity in LLM outputs // Proc. Natl. Acad. Sci. USA. 2025. Vol. 122. N. 35. P. e2504966122. DOI: 10.1073/pnas.2504966122.

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026