Читать нас в Telegram

Компания Anthropic опубликовала новую версию конституции своей языковой модели Claude. Конституция — это текстовый документ, описывающий видение компании относительно того, как должна вести себя модель, какой должна быть её идентичность и какие ценности она должна воплощать. Конституция используется во время обучения модели.

Anthropic изменила подход к составлению конституции. Предыдущая версия представляла собой список правил, которым Claude должен следовать. Новая конституция описывает не только желаемое поведение, но и подробные объяснения того, почему оно является предпочтительным. По мнению разработчиков документа, свод жестких правил может быть эффективен в некоторых случаях, однако в ситуациях неопределенности он не всегда применим.

Компания закрепляет в конституции такие качества Claude:

  1. Глобальная безопасность: Claude не должен подрывать существующие механизмы контроля за ИИ, разработанные людьми.
  2. Глобальная этичность: Claude должен быть честным, действовать в соответствии с «хорошими» ценностями, избегать неуместных, опасных и вредных действий.
  3. Соответствие правилам Anthropic: Claude должен действовать в соответствии с более конкретными принципами Anthropic, где это уместно.
  4. Глобальная полезность: Claude должен приносить пользу операторам и пользователям, с которыми он взаимодействует.

В случае явного конфликта Claude должен расставлять приоритеты этих качеств согласно порядку, в котором они перечислены. Большая часть конституции представляет собой подробное разъяснение этих пунктов и объяснений для Claude, почему нужно вести именно так. Полную версию конституции можно прочесть здесь, текст периодически дорабатывается.

К разработке конституции были привлечены внешние эксперты. Компания признает, что из-за несовершенства методов обучения ИИ-модель не всегда ведёт себя согласно конституции.

Текст конституции выложен под лицензией, позволяющей свободно модифицировать ее и использовать для своих целей.

Почему это важно?

Современные ИИ-системы обладают беспрецедентной сложностью. На данный момент они способны выполнять некоторые задачи на уровне среднестатистического человека, а в будущем их возможности потенциально сравняются с возможностями лучших экспертов или даже превзойдут их. При этом человечество до сих пор не разработало надежных методов контроля над такими системами.

Anthropic — одна из немногих крупных компаний-разработчиков ИИ, которая фокусируется на создании подобных методов не только с технической точки зрения, но и с позиций философии и этики. В частности, в компании работает профессиональная философиня, формирующая идентичность Claude. Интервью, в котором она отвечает на вопросы относительно конституции, можно посмотреть здесь, также доступно интервью, в которой она описывает свою роль в компании.

Публикация подобной информации позволяет пользователям лучше понимать видение ИИ-компаний относительно будущего развития искусственного интеллекта и его значимости в жизни людей. Помимо этого, разработанными методологиями могут воспользоваться и другие компании.