Читать нас в Telegram

Google теперь генерирует ответы на запросы пользователей

На недавно прошедшей конференции для разработчиков Google I/O корпорация анонсировала обновления своих генеративных моделей, а также новые функции поисковика, использующие языковую модель Gemini. Одно из ключевых нововведений — генерация ответа на поисковый запрос с использованием информации с разных сайтов. Эта функция уже доступна американским пользователям. По сообщениям многих из них, Google часто галлюцинирует или, другими словами, генерирует фактологически неверные ответы. Например, на вопрос пользователя «‎Как сделать так, чтобы сыр не сползал с пиццы?»‎ поисковик предлагает использовать клей. Подобные ошибки возникают из-за недостоверной информации на некоторых сайтах и несовершенства языковых моделей. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

Скандал вокруг голоса GPT-4o

Голливудская актриса Скарлетт Йоханссон обвинила OpenAI в использовании её голоса для озвучки GPT-4o без её согласия. По заявлениям актрисы, в прошлом сентябре CEO OpenAI, Сэм Альтман, предложил ей озвучить голосового ассистента компании, однако она отказалась от предложения. После презентации GPT-4o многие пользователи в интернете отметили сходство голоса ассистента Sky (помимо него пользователь может также выбрать другие голоса) и актрисы. Более того, сам Альтман опубликовал твит с текстом Her, названием фильма про интеллектуальную систему, озвученную Скарлетт Йоханссон. Также актриса утверждает, что CEO OpenAI повторно связывался с ней за два дня до презентации новой модели, чтобы выяснить, не пересмотрела ли она своё решение касательно сотрудничества. Однако к тому моменту, когда представители актрисы ответили, модель была уже анонсирована. После обращения юристов OpenAI согласилась убрать этот вариант озвучки.

Новое значимое исследование в области интерпретируемости нейронных сетей

Компания Anthropic, основанная бывшими сотрудниками OpenAI, выпустила новое исследование, в котором авторы анализируют механизмы работы языковой модели Claude 3 Sonnet.

Суть метода, который используют авторы, заключается в выявлении набора признаков, которыми «‎оперирует»‎ модель. Под признаком понимается численное (понятное компьютеру) представление какой-то концепции либо информации. Примеры концепций и информации, которые могут быть представлены признаками: сведения об известных людях и достопримечательностях, лингвистические концепции, эмоции и т. д. Другими словами, признаки — семантические единицы, которые нейросеть может использовать для решения задачи. Однако зачастую нейросети оперируют признаками, которые представляют сразу несколько концептов или хранят информацию о совершенно разных объектах. Такая многозначность признаков сильно усложняет задачу интерпретации нейросети и её контроля.

Главное достижение исследователей Anthropic — разработка метода, который позволяет выявлять только однозначные признаки, то есть признаки, которые не могут представлять несколько концепций одновременно. Более того, этот метод применим к очень большим моделям — а именно они представляют главный практический интерес. В своей статье авторы смогли идентифицировать большой и разнообразный набор однозначных признаков в языковой модели, сопоставимой по качеству с GPT-4. Также авторы показали, как можно управлять поведением модели, имея информацию о её признаках. В качестве демонстрации Anthropic на день дала пользователям доступ к своей языковой модели, которую с помощью разработанного метода заставили думать, что она является мостом «Золотые ворота»‎. Модель всё так же, как и раньше, была способна отвечать на произвольные запросы пользователей, однако во всех ответах вставляла различную информацию о мосте.

Интерпретируемость нейронных сетей — одна из главных задач, решение которой позволит сделать ИИ более надёжным, безопасным и применимым в задачах, где важна обоснованность и прозрачность решений (например, в медицинских задачах). В ближайшее время «Системный Блокъ» выпустит подробный разбор работ Anthropic по этой теме.