Модель из прошлого: исследователи обучили ИИ только на текстах до 1931 года

Исследователи обучили 13-миллиардную модель на текстах, изданных до 1931 года, и она предсказала мировую войну в 1936 году

11.05.2026

27 апреля 2026 года исследователи Ник Левин, Дэвид Дювено и Алек Рэдфорд (бывший сотрудник OpenAI, ведущий соавтор статьи о работе генеративных моделей, положившей начало ChatGPT) опубликовали языковую модель Talkie. Она насчитывает 13 млрд параметров и обучена исключительно на документах: книгах, газетах, журналах, патентах и судебных актах, изданных до 1 января 1931 года. Модель доступна на Hugging Face под свободной лицензией Apache 2.0, задать ей вопросы можно на сайте разработчиков.

Разработчики назвали модель «капсулой времени»: Talkie не знает современных, привычных для нас слов и концепций. Например, она считает, что мобильным телефоном называют мегафон. Это отличает ее от обычных LLM, которых тренируют на данных из интернета.

Авторам не удалось полностью изолировать данные, на которых обучалась Talkie, от современности, так как в более поздних изданиях и републикациях старых текстов встречались предисловия или сноски более позднего времени. В результате она страдает от «временной утечки». В тестах выяснилось, что Talkie знает некоторые факты, случившиеся после 1930 года, — например, что Франклин Рузвельт стал президентом в 1933-м.

Почему это важно?

Talkie — не просто развлечение или эксперимент ради эксперимента. У проекта есть несколько сфер научного применения.

Во-первых, это способ бороться с одной из главных проблем оценки языковых моделей — «загрязнением» тестов. Современные модели часто получают высокие баллы на бенчмарках просто потому, что видели правильные ответы во время обучения. Talkie не могла этого сделать: ни один современный тест не существовал до 1931 года.

Во-вторых, вся обучающая выборка находится в общественном достоянии — авторские права на эти тексты истекли. В разгар споров о том, законно ли использовать чужие произведения для обучения ИИ, Talkie демонстрирует альтернативный путь.

В-третьих, проект прямо отвечает на вызов, который в феврале 2026 года сформулировал глава Google DeepMind Демис Хасабис: могла бы модель, обученная на данных до 1911 года, самостоятельно вывести общую теорию относительности — как это сделал Эйнштейн? Talkie — это инструмент для такого рода экспериментов.

Автор: Системный Блокъ

Теги:ИИ, нейронные сети, нейросети, новости

Next «Игуменья» или «пионер»: чем отличаются слова в дореволюционных и советских открытках »

Previous « Цифровой строй: как «Бессмертный полк» переселился в онлайн

Tags: ИИнейронные сетинейросетиновости

11.05.2026

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

Модель из прошлого: исследователи обучили ИИ только на текстах до 1931 года

Почему это важно?

Related Post

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз