ESM3 — одна из самых больших моделей для дизайна белков
Компания EvolutionaryScale, основанная бывшими сотрудниками Meta, представила модель ESM3 для генерации белков. ESM3 была обучена на более чем 2,7 млрд последовательностей и структур белков. Она способна создавать белки с заданными свойствами.
Для демонстрации компания использовала ESM3 для дизайна флуоресцентного (светящегося) белка. Излучающий свет белок GFP (green fluorescent protein) был найден у медуз в 1960-х годах. Впоследствии учёные научились использовать его, чтобы помечать другие белки. Это, например, позволяет подсвечивать растущие раковые опухоли, показывать развитие болезни Альцгеймера в мозге или рост болезнетворных бактерий. За использование GFP в биологии в 2008 году несколько учёных получили Нобелевскую премию.
Исследователи EvolutionaryScale синтезировали 88 наиболее перспективных дизайнов белка с помощью модели и измерили их способность к флуоресценции. Большинство из них оказались неудачными, но один вариант, не похожий на известные флуоресцентные белки, светился тусклым светом — примерно в 50 раз слабее, чем природные формы GFP. Далее исследователи использовали ESM3 для усовершенствования удачной молекулы. Несколько вариантов из 100 итоговых были такими же яркими, как природные GFP. Правда, до лучших по яркости лабораторных образцов они всё ещё не дотягивают. Совпадение полученной молекулы с наиболее близкой молекулой из обучающих данных составило менее 60%.
Основатель компании отмечает, что итеративный процесс дизайна белков с помощью ESM3 схож с процессом естественной эволюции.
Самая большая LLama на подходе
По данным сотрудника Meta, LLama 3 — языковая модель от Meta — с 405 млрд параметров выйдет уже 23 июля. Скорее всего, модель будет поддерживать не только работу с текстом, но и другими типами данных, например изображениями. Промежуточные результаты этой модели в стандартных тестах сопоставимы с результатами GPT-4.
Меньшие версии LLama 3 с восемью и 70 млрд параметров были выпущены в середине апреля. В отличие от большинства остальных языковых моделей, LLama выложена в открытый доступ и может быть использована в коммерческих целях.
FlashAttenion3 — новые оптимизации механизма Attention
Исследователи выпустили третье поколение оптимизаций механизма Attention. Attention — главная составляющая самой популярной архитектуры нейросетей Transformer, которая в том числе используется во всех современных языковых моделях.
Главная проблема Attention — большое потребление вычислительных ресурсов, которое существенно растёт с увеличением входных данных. FlashAttention — это серия работ по оптимизации ресурсозатратного блока.
Третья версия, по сравнению с предыдущей версией, более чем в два раза эффективнее использует вычислительные мощности во время работы Attention и поддерживает вычисления с числами пониженной точности (зачастую не все вычисления необходимо делать очень точно, поэтому разработчики пренебрегают точностью в угоду скорости).
Благодаря более эффективной реализации Attention, сократится стоимость обучения и использования большинства современных моделей, а языковые модели, в свою очередь, смогут работать с более длинными текстами.