Компания изменила принципы обучения и описала ценности ИИ.
Компания Anthropic опубликовала новую версию конституции своей языковой модели Claude. Конституция — это текстовый документ, описывающий видение компании относительно того, как должна вести себя модель, какой должна быть её идентичность и какие ценности она должна воплощать. Конституция используется во время обучения модели.
Anthropic изменила подход к составлению конституции. Предыдущая версия представляла собой список правил, которым Claude должен следовать. Новая конституция описывает не только желаемое поведение, но и подробные объяснения того, почему оно является предпочтительным. По мнению разработчиков документа, свод жестких правил может быть эффективен в некоторых случаях, однако в ситуациях неопределенности он не всегда применим.
Компания закрепляет в конституции такие качества Claude:
В случае явного конфликта Claude должен расставлять приоритеты этих качеств согласно порядку, в котором они перечислены. Большая часть конституции представляет собой подробное разъяснение этих пунктов и объяснений для Claude, почему нужно вести именно так. Полную версию конституции можно прочесть здесь, текст периодически дорабатывается.
К разработке конституции были привлечены внешние эксперты. Компания признает, что из-за несовершенства методов обучения ИИ-модель не всегда ведёт себя согласно конституции.
Текст конституции выложен под лицензией, позволяющей свободно модифицировать ее и использовать для своих целей.
Современные ИИ-системы обладают беспрецедентной сложностью. На данный момент они способны выполнять некоторые задачи на уровне среднестатистического человека, а в будущем их возможности потенциально сравняются с возможностями лучших экспертов или даже превзойдут их. При этом человечество до сих пор не разработало надежных методов контроля над такими системами.
Anthropic — одна из немногих крупных компаний-разработчиков ИИ, которая фокусируется на создании подобных методов не только с технической точки зрения, но и с позиций философии и этики. В частности, в компании работает профессиональная философиня, формирующая идентичность Claude. Интервью, в котором она отвечает на вопросы относительно конституции, можно посмотреть здесь, также доступно интервью, в которой она описывает свою роль в компании.
Публикация подобной информации позволяет пользователям лучше понимать видение ИИ-компаний относительно будущего развития искусственного интеллекта и его значимости в жизни людей. Помимо этого, разработанными методологиями могут воспользоваться и другие компании.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…