Лаборатория Google DeepMind представила третье поколение модели Genie. Это семейство относится к так называемым «моделям мира» (world models) — системам, которые симулируют физику реального или игрового пространства.
Genie 3 по текстовому описанию создает виртуальную сцену, в которой можно свободно перемещаться в реальном времени (24 кадра в секунду, разрешение 720p) с помощью клавиатуры. Сцена сохраняет целостность несколько минут благодаря «визуальной памяти» модели примерно на минуту: например, если пользователь окрасит часть стены, уйдет, а затем вернется, стена останется окрашенной.
Помимо обычного управления доступны «события по запросу» (promptable world events). Во время сессии можно менять мир командами вроде «сделай дождь», «добавь лодку на озеро» или «сделай ночь» — при этом изменения происходят без перезапуска сцены.
Genie 3 способна порождать самые разные окружения и физические явления: физику жидкости, света, природные локации (лес, озеро, волны), городские сцены и стилизованные игровые миры.
Предыдущие версии были менее стабильны во времени, поддерживали только короткие симуляции (до 20 секунд) и имели ограниченную интерактивность.
Почему это важно?
У «моделей мира» множество применений:
- Генерация обучающих данных для роботов и автономных систем. Например, можно создать сотни часов симуляций приготовления еды и использовать их для обучения робота или сгенерировать редкие дорожные ситуации для тренировки беспилотных автомобилей.
- Использование в связке с языковыми моделями, которым сложно рассуждать о физике. LLM может преобразовать вопрос пользователя в запрос к модели мира, получить симуляцию и извлечь из нее ответ.
- Замена сложных физических расчетов. Иногда точное вычисление по формулам слишком трудоемко, а достаточно точная симуляция позволяет получить результат быстрее и дешевле.