GPT-4o — новая мультимодальная модель от OpenAI
Компания OpenAI анонсировала обновление GPT. Обновление получило название GPT-4o («o» от слова Omni — «всё в одном»). GPT-4o может принимать на вход и выдавать в качестве ответа текст, изображения и аудио — ранее в зависимости от типа медиа использовались разные модели. По основным тестам модель сопоставима с GPT-4 на английском языке и превосходит её на других языках (в том числе и на русском). Модель также лучше пишет код.
Одно из главных нововведений GPT-4o — способность выражать эмоции в разговоре посредством различных интонаций и смеха. Например, она может изображать удивление, любопытство, сарказм, петь и шептать.
Также сильно сократилось время ожидания ответа в устном диалоге: теперь модель отвечает в среднем через 0,3 секунды после реплики пользователя. Различные примеры диалогов можно посмотреть на YouTube канале OpenAI.
GPT-4o доступна разработчикам через API по более дешёвому тарифу, чем у GPT-4. Рядовые пользователи уже сейчас могут бесплатно использовать новую модель через сайт ChatGPT, однако аудио функции станут доступны позже и только пользователям с подпиской.
Сотрудничество Apple и OpenAI
По данным издания Bloomberg, компания Apple и OpenAI (создательница ChatGPT) близки к завершению сделки, по условиям которой Apple сможет использовать наработки OpenAI в следующем обновлении iOS, операционной системе iPhone. Неизвестно, какие именно технологии будут использованы: вероятно, Apple намеревается использовать ChatGPT и технологии для синтеза речи для улучшения своего голосового ассистента Siri. Презентация для разработчиков, на которой представят обновление iOS, состоится 10 июня.
Ранее в сети появлялись слухи, что Apple договаривается с Google об использовании их языковой модели Gemini, однако о статусе переговоров ничего неизвестно.
Обновление архитектуры LSTM
Опубликована статья xLSTM, в которой была представлена модификация нейросетевой архитектуры LSTM (Long short-term memory). LSTM-сети показывали лучшие результаты в задаче языкового моделирования до выхода архитектуры Transformer, на которой основаны все современные LLM.
Авторы статьи модернизировали LSTM, используя все последние техники современных языковых моделей, обновили устройство ячейки памяти, а также существенно увеличили количество параметров. Полученную архитектуру xLSTM сравнили с Llama (Transformer от Meta), Mamba, RWKV-4 (современные рекуррентные архитектуры) — практически во всех задачах xLSTM оказалась лидером.
xLSTM требует меньше вычислительных ресурсов во время работы и позволяет обрабатывать очень длинные тексты, но её обучение примерно в четыре раза медленнее Transformer. Однако авторы отмечают, что их реализация не оптимизирована, поэтому есть простор для улучшений.
AlphaFold 3 — нейросеть для моделирования биомолекул
Лаборатория Google DeepMind выпустила третье поколение нейросети AlphaFold. В отличие от AlphaFold 2, которая умеет моделировать структуру белков, новая версия способна моделировать РНК, ДНК и лиганды (тип соединений). Также предсказания результатов взаимодействия разных соединений у AlphFold 3 на 50% точнее, чем предсказания существующих методов. Вместе с моделью Google представила Alpha Server — веб-сервис, который позволяет учёным использовать AlphaFold.
Первая версия AlphaFold произвела революцию в биологии, повысив качество предсказания структуры белка по последовательности аминокислот. Эта задача — одна из самых важных в биологии, так как структура белка задаёт его функцию.