Новости

Модель из прошлого: исследователи обучили ИИ только на текстах до 1931 года

Исследователи обучили 13-миллиардную модель на текстах, изданных до 1931 года, и она предсказала мировую войну в 1936 году

27 апреля 2026 года исследователи Ник Левин, Дэвид Дювено и Алек Рэдфорд (бывший сотрудник OpenAI, ведущий соавтор статьи о работе генеративных моделей, положившей начало ChatGPT) опубликовали языковую модель Talkie. Она насчитывает 13 млрд параметров и обучена исключительно на документах: книгах, газетах, журналах, патентах и судебных актах, изданных до 1 января 1931 года. Модель доступна на Hugging Face под свободной лицензией Apache 2.0, задать ей вопросы можно на сайте разработчиков.

Разработчики назвали модель «капсулой времени»: Talkie не знает современных, привычных для нас слов и концепций. Например, она считает, что мобильным телефоном называют мегафон. Это отличает ее от обычных LLM, которых тренируют на данных из интернета.

Авторам не удалось полностью изолировать данные, на которых обучалась Talkie, от современности, так как в более поздних изданиях и републикациях старых текстов встречались предисловия или сноски более позднего времени. В результате она страдает от «временной утечки». В тестах выяснилось, что Talkie знает некоторые факты, случившиеся после 1930 года, — например, что Франклин Рузвельт стал президентом в 1933-м.

Почему это важно?

Talkie — не просто развлечение или эксперимент ради эксперимента. У проекта есть несколько сфер научного применения. 

Во-первых, это способ бороться с одной из главных проблем оценки языковых моделей — «загрязнением» тестов. Современные модели часто получают высокие баллы на бенчмарках просто потому, что видели правильные ответы во время обучения. Talkie не могла этого сделать: ни один современный тест не существовал до 1931 года.

Во-вторых, вся обучающая выборка находится в общественном достоянии — авторские права на эти тексты истекли. В разгар споров о том, законно ли использовать чужие произведения для обучения ИИ, Talkie демонстрирует альтернативный путь.

В-третьих, проект прямо отвечает на вызов, который в феврале 2026 года сформулировал глава Google DeepMind Демис Хасабис: могла бы модель, обученная на данных до 1911 года, самостоятельно вывести общую теорию относительности — как это сделал Эйнштейн? Talkie — это инструмент для такого рода экспериментов.

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026