Татьяна Шаврина — эксперт по языковым моделям, моделированию языка и искусственному интеллекту (ИИ). Ранее она возглавляла научную группу по обработке естественного языка (NLP) в Институте искусственного интеллекта AIRI, а теперь работает менеджером исследователей в команде LLAMA — топовой open-source языковой модели, сопоставимой с моделями семейства GPT. Мы поговорили с Татьяной Шавриной о прогрессе языковых моделей, современном состоянии области искусственного интеллекта, проблеме исчерпания обучающих данных и вопросах копирайта. А ещё о том, к чему нужно быть готовым человеку, который хочет связать свою карьеру с разработкой ИИ.
Далеко ли нам до сильного искусственного интеллекта (AGI)?
Четыре основных признака сильного ИИ (AGI): он способен самостоятельно принимать решения в условиях неопределённости, приобретать новые навыки, оперировать знаниями и объяснять свои решения на естественном языке. Частично эти критерии уже достигнуты, но не все. Есть оперирование знаниями, с натяжкой можно сказать, что есть приобретение новых навыков. Планирования и принятия решений нет. Объяснений на естественном языке тоже нет, потому что мы плохо умеем интерпретировать результаты работы нейросетей. Периодически случаются прорывы, но не до такой степени, чтобы получить объяснение в широком смысле. Возможно, в какой-то момент выйдет фундаментально новая архитектура, которая всё перевернёт.
Мы плохо умеем интерпретировать результаты работы нейросетей
Конечно, все ждут, что ИИ будет всё больше превосходить человека в целом, а не в отдельных задачах. Отчасти это уже так, потому что любые модели машинного обучения сейчас оперируют большим числом знаний, чем есть у отдельно взятого человека. Кроме того, длинное окно контекста, позволяющее языковым моделям оперировать миллионами слов в краткосрочной памяти, несравнимо с нашими естественными ограничениями в 7 ± 2 предложений.
Какие опасности есть у применения ИИ?
Все риски, они же опасности, можно разделить на долгосрочные-краткосрочные и намеренные-непреднамеренные. К долгосрочным сценариям часто относят «экзистенциальный риск ИИ» — техногенную катастрофу, вызванную неправильным автоматизированным решением.
Если говорить про краткосрочные негативные сценарии применения ИИ, то они связаны с разным «двойным назначением» — выборами, с манипуляцией информацией и общественным мнением на разных уровнях. Массовая информационная обработка, которую можно автоматизировать, боты с аргументацией в социальных сетях — я думаю, всё это разрабатывается или будет разрабатываться.Вторая опасность — всё, что связано с оборонкой, военное применение. DARPA (Управление перспективных исследовательских проектов минобороны США — прим. «Системного Блока») много лет финансирует исследования в области машинного обучения. Среди них есть и ImageNet, и соревнования по беспилотным автомобилям. Если в какой-то момент произойдёт спад инвесторского интереса к языковым моделям, а стартапам всё ещё будет нужно финансирование, они могут прибегнуть к американскому военному бюджету. К остальным военным бюджетам тоже, просто американский гораздо больше.
Если нас ждёт спад инвесторского интереса к языковым моделям, стартапы могут прибегнуть к военному бюджету
В последние годы я вижу на LinkedIn множество стартапов, которые занимаются компьютерным зрением для дронов, распознаванием лиц, трекингом запрещённой активности людей. Таких стартапов много не только в США, но и в Европе.
Близок ли современный нейросетевой ИИ к построению модели мира?
Модели на трансформерной архитектуре (такие как GPT, Claude, LLAMA и другие) — это всё ещё статистические модели. Мы знаем, что после «шёл проливной» будет следовать «дождь», после «Леонардо» — «да Винчи», а если написано «новая девушка Леонардо», то «Ди Каприо».
«Модели мира» — терминология в обучении с подкреплением, т. н. Model-based reinforcement learning (MBRL). Никакой модели мира у языковых моделей, которая бы связывала какие-то объекты в реальной жизни и процессы, которые их соединяют, в языковых моделях пока нет. Когда я слышу, что у LLM есть модель мира, мне сразу кажется, что это спекуляция, либо, мягко скажем, стремление выдать желаемое междисциплинарное за действительное. Чаще эта аргументация идёт от менеджеров, которые стремятся привлечь инвесторов, и в меньшей степени от людей с научной степенью. Представим, что мы загрузили много видео, в котором собака много раз пробегала слева направо. Сможем ли мы потом сгенерировать собаку, которая пробегает справа налево? Совершенно не очевидно. Это уже видно на ошибках Sora (модель для генерации видео, также построенная на трансформерной архитектуре, — прим. «Системного Блока»), когда чашка на сгенерированном видео не разбивается при падении. Там нет физики. Это просто статистическое обобщение, основанное на том, что раз чашка на видео много раз падала, значит, мы можем это воспроизвести.
В модели Sora нет физики
Мне кажется ироничным, что против такого подхода к моделированию действительности был лингвист Ноам Хомский. Он ещё в 2004 году, выступая против корпусной лингвистики, утверждал, что это как если бы физики ставили камеры и записывали, как движутся объекты реальности, и потом собирали данные. Теперь мы делаем именно это. Про корпусную лингвистику Хомский был неправ методологически, она оказалась полезна для изучения языка. Но не ясно, сможем ли обобщить мы что-то в физике по видео.
Генерация видео, конечно, продолжит развиваться, и качество будет повышаться. Но я думаю, что Sora никогда не будет так широко доступна, как это произошло с GPT, потому что это вычислительно очень дорого. Чем длиннее генерация, тем она дороже. Это будет где-нибудь в Голливуде, в отдельных студиях, и на этом всё закончится.
Где брать ещё больше данных для обучения больших языковых моделей?
Я не против синтетических данных (искусственно сгенерированные данные, которые имитируют статистические характеристики и закономерности данных реального мира ― прим. «Системного Блока») и не против общения генераторов синтетических данных с людьми.
Синтетические данные используются сейчас очень широко. Во-первых, они помогают соединить некоторые области знания, которые существуют разрозненно, и это повышает качество модели, например, того, как она строит выводы. Модель остаётся та же самая, но мы ей подсказываем, что вот эти факты связаны между собой, и она может это запомнить.Во-вторых, синтетика помогает, когда нет нужного объёма качественных данных. Для некоторых архитектур хорошо описаны законы масштабирования больших языковых моделей. Для других описаны чуть хуже, но в целом, если мы знаем, какого размера модель и сколько есть вычислительных мощностей, то знаем, сколько потребуется данных. Соответственно, у нас может быть техническая возможность масштабировать модель, но не будет достаточного количества качественных данных, на которых она сможет обучаться. Какого-то трэша из интернета с каждым днем становится всё больше, а фундаментальные данные национальных корпусов так быстро не растут.
Трэша из интернета с каждым днем становится всё больше, а фундаментальные данные так быстро не растут
Помимо того, что для обучения нужны качественные данные, они должны быть репрезентативными и отражать всю вариативность языка. Мы хотим, чтобы были представлены действительно в разном объёме разные задачи, разная сложность, разные жанры, разные языки. Должны быть и чатики из интернета, и 4chan, и художественная литература разных веков, и Шекспир, и Сорокин.
Но возможно ли представить ситуацию, в которой эти данные имеют разный вес? На практике получается, что фактическая информация, например, научные статьи или художественная литература, добавленная в обучение, оказывают большее влияние на конечный результат, чем чатики из интернета. Можно придумать много объяснений, почему так происходит. Интуитивно нам понятно, что фактологическая информация и сложные интеллектуальные задачи в большей концентрации встречаются в научной или художественной литературе, чем в некотором случайном срезе из интернета. Соответственно, если мы хотим набрать фиксированный объём данных, который будет оптимальным для обучения нашей огромной модели, то мы обнаружим, что у нас есть 1% качественных данных, а всё остальное ― случайный срез из интернета.
Недавно вышла работа, авторы которой в очередной раз профильтровали интернет и положили 15 трлн токенов на английском языке. Это очень много. Например, вся доступная в цифровой форме русская художественная литература ― это примерно 400 млн токенов. Как обращаться с этим дисбалансом? Помогают синтетические данные, которые опираются на литературу, научные статьи, Википедию.
Прекрасный пример — это генерация кода. Будем считать, что это поджанр естественного языка. Для компьютерных лингвистов и для прикладников, занимающихся языковыми моделями, очевидно, что язык включает в себя разные подмножества и поджанры. В этом смысле код, написанный на любом языке программирования с человеческими комментариями на естественном языке, — это просто подмножество внутри обучающего корпуса. Однако с кодом ровно та же ситуация, что и с другими данными, — очень мало не только качественного, но даже плохого кода.
Для обучения мало не только качественного, но даже плохого кода
Что нам делать? Конечно, мы можем сгенерировать синтетический код. Мы уже находимся в той ситуации, когда модели, обученные на относительно небольшом количестве качественного кода, могут породить много нового синтетического кода. Наша задача — не просто пускать это дальше в обучение, а как-то профильтровать и валидировать. Мы знаем, каким характеристикам он должен соответствовать: исполняемость, минимальная алгоритмическая сложность и так далее. Это можно автоматически провалидировать и выделить данные, которые можно использовать для обучения. Для естественного языка таких объективных метрик нет. Есть удобочитаемость, есть какие-то субъективные классификаторы, но в целом это не очень сильно помогает.
Мне кажется, один из больших трендов сейчас — это коммодификация научных данных, результатов всех научных работ, которые выложены в открытый доступ или на сайтах издательств. Тысячи компаний с легальным доступом к этим базам аккуратно парсят тексты, таблички, абстракты, гипотезы и потом на этом строят какие-то поисковые системы или сервисы. Уже достаточно много ассистентов (например, Elicit, Consensus, Scite.ai), которые с неплохим качеством могут делать содержательную агрегацию по ряду научных статей. Например, пользователь задаёт вопрос, полезен ли магний для качества сна? И получает выдачу сразу по 150 статьям, которые упоминают магний и сон, и в трёх из них результаты показывают, что он полезен, а в остальных, что нет.
Что происходит с авторскими правами на данные при обучении нейросетей
Интеллектуальная собственность и авторские права — большой вопрос в сфере ИИ. Все нейросети и продукты на них в широком смысле построены на нарушении копирайта.
Все данные в интернете, которые автоматически были собраны для обучения нейросетей, находились под какой-то лицензией. В принципе, правообладатель всегда может отправить досудебную претензию и потребовать, чтобы его интеллектуальную собственность удалили из модели, либо сразу начать судиться.
Иногда это принимает ещё более яркие формы: например, скандал со Скарлетт Йоханссон, когда компания OpenAI без согласия актрисы использовала её голос для озвучивания нейросети. Отличный пример, потому что тут никак не выкрутишься и не скажешь, что это получилось случайно. У OpenAI всего пять голосов, и всё это было одобрено продакт-менеджерами, дизайнерами. С самого начала в OpenAI говорили, что несколько раз пытались подобраться к Йоханссон и всё-таки заключить с ней контракт. Но когда это не удалось, они всё равно использовали её голос.
С точки зрения технической процедуры, им, возможно, даже не потребовалась её речь. Они могли использовать студийные записи какой-то ещё актрисы, которая говорит похоже. Они могли отфильтровать подкорпус с речью людей, которые очень близки по тембральным характеристикам. На этом обучить нейросеть — и всё, вы не использовали данные Скарлетт Йоханссон, но вы сделали такой же голос.
Нейросети и продукты на них в широком смысле построены на нарушении копирайта
Я бы сказала, что копирайт пожирает сам себя, потому что на основе нарушения чужой интеллектуальной собственности делается новый интеллектуальный платный продукт.
Как разрубить эту цепочку? С одной стороны, этот продукт пока не столько зарабатывает, чтобы было экономически выгодно платить правообладателям за данные. Все просто обанкротятся, если будут платить. С другой стороны, этот коммерческий продукт отнимает у живых людей заказы и создает упущенную прибыль для правообладателей тех данных, на которых он обучен. Этот узел в обществе ещё не разрублен. Общество не понимает, что с этим делать.
Можно вернуться к тем идеям, которые планомерно предлагались последние 30 лет, но в современном медиапространстве оказались вытеснены. Посмотреть, какие были альтернативы. Одна из них ― это отказ от существующего законодательства о копирайте.
Копирайтное законодательство сильно закрутило гайки в начале нулевых, когда вышел Digital Millennium Copyright Act. По нему вам, по сути, ничего не принадлежит: вы купили книгу, слушаете песню в стриминге, но это не ваша собственность и право использования в любой момент может быть отозвано. Это радикальная позиция, которая была продиктована коммерческим интересом крупных корпораций в начале нулевых, когда только они стали выходить в интернет. Сейчас их интерес сместился, они сами хотят заниматься генеративной музыкой, генеративным контентом, поэтому есть шанс откатить эти драконовские правила назад. Я бы предложила дать больше послаблений в регулировании открытых технологий и сделать более прозрачной процедуру использования данных для обучения.
Все популярные лицензии на интеллектуальную собственность составлялись без учёта того, что кто-то будет их использовать для неполной репликации и создания нового. Они создавались под маркетинговые нужды. Пока ничего не переписали, существует большой перекос, когда крупным платформам всё можно, а создателям контента ничего нельзя. Его нужно будет устранить.
Крупным платформам всё можно, а создателям контента ничего нельзя
Я думаю, что должны начать работать более прозрачные процедуры отзыва прав или создания промежуточных форм права, более вариативные условия использования интеллектуальной собственности. Есть много способов, как это можно сделать. Например, можно на основе блокчейн-сетей делать договоры относительно того, что я владею вот этим кусочком данных, вот разрешение на него, можем с вами легко заключить смарт-контракт.
Для этого нет технологических ограничений, было бы желание. Желание может быть и у корпораций, которые хотят более прозрачно использовать контент, и у государства, поскольку это создает социально-экономический стресс для значимой группы профессий.
Получается ли у Open-source моделей конкурировать с коммерческими?
Open-source-модели потихонечку догоняют коммерческие по качеству. Это происходит за счёт того, что open-source-комьюнити фокусно направляет усилия большого количества людей, которые работают бесплатно. Но оно всегда будет находиться в состоянии догоняющего. И ничего плохого в этом нет. Сложно представить open-source-модель, которая шагнёт вперёд, — хотя лично мне хочется это изменить.
Сложно представить open-source-модель, которая шагнёт вперёд, — хотя лично мне хочется это изменить
Догнать коммерческие модели очень тяжело. Даже на открытых лидербордах, например, LMSYS, за всё время при огромных усилиях сообщества удалось собрать около миллиона оценок разметчиков на side-by-side сравнении. Это в 10 раз меньше, чем объём данных, которые коммерческие компании покупают для дообучения языковых моделей под свои нужды. И закупят ещё больше!
Медосмотр языковой модели: чем ИИ-инженеру полезен лингвистический бэкграунд?
Лингвистика помогает мне работать в NLP. Нельзя сказать, что напрямую, но есть несколько сфер. Можно одновременно держать в голове крупные и большие системы правил. Это всегда помогает в каких-то архитектурных решениях: вертеть в голове деревья для собеседования, быстро написать много регулярных выражений, которые будут работать.
Больше всего лингвистический бэкграунд помогает в анализе данных при составлении обучающих корпусов. Например, мы хорошо понимаем, что такое репрезентативность текстовых данных.
Мы должны хорошо понимать, что мы кладём в обучение, чтобы потом не удивляться, как же у нас так гениально получилось. Я говорю модели: «Я тебе дам 20 долларов», — и оно начинает лучше работать. Почему? Потому что мы это сами туда когда-то положили, модель запомнила. Чем больше модель, тем лучше меморизация (запоминание).
У больших языковых моделей есть так называемые «возникающие свойства» (emergent properties) — задачи, которым модель никто не обучал и примеров решения которых не было в обучающих данных. Но многое из того, что кажется «возникающими свойствами», сводится к тому, что «ой, это же на самом деле было в обучении, просто мы не знали, что мы это туда положили». В этом смысле корпусные лингвисты недорабатывают, потому что нужны более гранулярные способы оценки того, что лежит в корпусных данных: не просто общая статистика по n-граммам, жанрам, авторам, а таксономия по сложным интеллектуальным задачам.
Другая проблема — необходимость постоянного обновления бенчмарков. Если есть задача, когда надо выбрать правильный ответ из нескольких вариантов, GPT-4 восстанавливают эти ответы, даже неправильные, по памяти. Они их просто заучили. Ты можешь дать ему задачу, чтобы он продолжил, и он восстановит то, что там было. Поэтому данные должны постепенно обновляться. По сути, это должно выглядеть как регулярное лицензирование или продление водительских прав. Профмедосмотр языковой модели.
Адронный коллайдер для языка: что могут дать языковые модели лингвистам?
Мне кажется, что языковые модели — особенно большие языковые модели, с которыми общается сейчас много людей — это адронный коллайдер для языка. Мы впервые находимся в ситуации, когда мы можем задокументировать человеческое общение в таком объёме, причём в условиях, которые мы можем контролировать. Мы должны придумать, как с помощью этих симуляций узнать что-то универсально новое про язык. У физиков есть коллайдер? У лингвистов теперь тоже есть коллайдер, давайте использовать его.
Допустим, мы изучаем язык в рамках теории Хомского. За 60–70 лет у нас накопилось огромное количество правил, которые нагромождались друг на друга: добавлялись новые языки, новые примеры. Накоплено огромное наследие, которое нужно массово валидировать. Но, может быть, построить универсальные правила грамматики заново, как бы снизу вверх, опираясь на большие данные, которые у нас теперь есть?
Конечно, есть ограничения. Мы знаем, что языковые модели плохо могут отличать отрицательный языковой материал от нормального, потому что они не учатся на отрицательном языковом материале. Это значит, что отделить то, что неграмматично, бывает трудно, особенно для малоресурсных языков.
Другое ограничение ― англоцентризм. Он есть как в самой теории Хомского, так и в данных языковых моделей. Возникает вопрос, как нам от этого избавиться. Как сделать обобщение для всех языков, которое базируется не на статистическом превосходстве английского, а на реальных фундаментальных возможностяхи и ограничениях мозга. Возможно, нам нужно больше симуляций разнообразных ситуаций.
Что ждёт отрасль ИИ в ближайшем будущем?
Я давно слышу, что большие языковые модели — это пузырь, который вот-вот лопнет. Я думаю, что ещё примерно год будем это слышать, а потом тема перейдет в другую область, в робототехнику или ещё куда-то. Наши ожидания от LLM остановятся на определённом уровне, как наши ожидания от интернет-поиска. Например, что LLM ― это статистические машины, которые могут воспроизводить некоторые человеческие особенности. Станет проще писать эссе, писать код или оформлять отчёты по ГОСТу. И на этом всё.
Фундаментально в области LLM мало поменялось с 2020 года, когда вышла GPT-3. То есть ещё до ChatGPT. Просто сначала взаимодействие с ней было не так удобно, как сейчас, потому что оно было не в формате диалога. Мы подбираем затравку (промпт), которую мы отправляем в статистическую модель таким образом, чтобы максимизировать вероятность желаемого. Естественный язык очень хорошо подходит для этой задачи, потому что мы и сами ходим и «промптим» окружающих, мы всё время максимизируем вероятность желаемого. А LLM имеет огромный аккумулированный опыт общения разных людей друг с другом и с моделью.
Построение логических выводов будет улучшаться, но случится ли это благодаря именно языковым моделям? Думаю, нет. Я думаю, что текущая архитектура имеет фундаментальное ограничение на построение причинно-следственных связей именно потому, что они просто воспроизводят статистические закономерности, и в этом её основная задача. Очень многие вещи, которые кажутся нам логичными, на самом деле просто статистически вероятны в языке. Если мы намеренно их поменяем на какие-то редкие слова или специальные аргументы, а логику оставим ту же самую, то оно резко перестает работать.
Модели будут становиться больше, они будут масштабнее и качественнее. Будет поддержка большего числа языков. Будут больше использоваться научные данные. Логический вывод будет работать чуть-чуть лучше. Думаю, что в целом тренд идёт на планирование, агентность — всё то, чего нам не хватает до наступления AGI (универсального искусственного интеллекта).
Надо понимать, что среда разработчиков ИИ стала очень закрытой. Всё находятся под несколькими слоями договоров о неразглашении, поэтому о том, что происходит, можно судить только по косвенным признакам.
Есть ли в профессиональной среде гендерное неравенство?
С точки зрения работодателя, в целом по рынку никаких гендерных предпочтений нет, поскольку в любом случае профессионалы в IT очень востребованы и всем совершенно всё равно, кто вы. Мне кажется, что «бутылочное горлышко» приходится на этап образования, потому что девочки до сих пор проигрывают на стадии поступления в вуз. Девочке до сих пор тяжело решиться пойти в Бауманку или МФТИ.
С точки зрения работы в профессии, в NLP ситуация лучше, чем во многих других областях, потому что к нам приходит много лингвистов, где традиционно девочек как раз больше. В этом смысле более-менее ситуация выравнивается.
Я думаю, любая женщина, которая работает в IT, сталкивалась с агрессивной средой. Это не имеет отношения к конкретным работодателям, но в целом всегда, если подавляющая доля коллектива мужская, женщина будет сталкиваться с дополнительным вниманием, которое отрицательно влияет на карьеру долгосрочно.
Кто-то может думать, что раз ты женщина, ты не умеешь программировать. C другой стороны, наоборот, тебя иногда идеализируют: «Ой, вот ты у нас просто IT-фея, вау, ты и женщина, и программируешь!» Это ещё хуже, потому что тебе наваливают ответственности за пределами твоих компетенций, а ты в результате не справляешься с ожиданиями. Дополнительное внимание в обе стороны — это плохо.
Что можно посоветовать тем, кто хочет связать свою карьеру с ИИ?
Я думаю, что для тех, кто хочет заниматься машинным обучением, возможностей будет только больше, а порог входа будет ниже. Но в ближайшем будущем не будет социальных гарантий или job security. Конкуренция на этом рынке огромная, и представить, что ты на одном месте работы продержишься пять лет, если это какое-то очень крутое место, которое делает действительно фундаментальные изменения, очень трудно, потому что это очень тяжелая работа.
Если вы хотите работать в этой сфере, нужно решить, какую область вы хотите двигать и развивать. Нужно постараться выработать психологическую, внутреннюю устойчивость относительно того, что в этой области всё будет очень быстро и очень много дальше меняться. Поэтому нам придётся учиться всю жизнь.
Я не верю, что программистов будут сокращать и их заменит искусственный интеллект. Программисты будут работать с ИИ-ассистентами, но программистов станет только больше. Поднимется средний уровень качества, надо будет работать с собственными компетенциями. Главное, чтобы вам было ради чего.