Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols

要約

信頼できない AI に対する展開プロトコルの安全性と有用性を評価するために、AI Control はプロトコル設計者と敵対者の間で行われるレッドチーム演習を使用します。
この論文では、多目的で部分的に観察可能な確率的ゲームとしてのレッドチーム演習の正式な意思決定モデルである AI コントロール ゲームを紹介します。
また、AI 制御ゲームを部分的に観測可能なゼロサムの確率的ゲームのセットに削減することにより、AI 制御ゲームで最適なプロトコルを見つける方法も紹介します。
私たちは形式主義を適用して、信頼できない言語モデルをプログラミングアシスタントとして展開するためのプロトコルをモデル化、評価、合成します。特に、弱い言語モデルと限られた人間の支援を使用する信頼できる監視プロトコルに焦点を当てます。
最後に、既存の設定での実証研究に対する改善を示し、新しい設定でプロトコルを評価し、モデリングの仮定がプロトコルの安全性と有用性にどのような影響を与えるかを分析することによって、形式主義の有用性を実証します。

要約(オリジナル)

To evaluate the safety and usefulness of deployment protocols for untrusted AIs, AI Control uses a red-teaming exercise played between a protocol designer and an adversary. This paper introduces AI-Control Games, a formal decision-making model of the red-teaming exercise as a multi-objective, partially observable, stochastic game. We also introduce methods for finding optimal protocols in AI-Control Games, by reducing them to a set of zero-sum partially observable stochastic games. We apply our formalism to model, evaluate and synthesise protocols for deploying untrusted language models as programming assistants, focusing on Trusted Monitoring protocols, which use weaker language models and limited human assistance. Finally, we demonstrate the utility of our formalism by showcasing improvements over empirical studies in existing settings, evaluating protocols in new settings, and analysing how modelling assumptions affect the safety and usefulness of protocols.

arxiv情報

著者 Charlie Griffin,Louis Thomson,Buck Shlegeris,Alessandro Abate
発行日 2024-09-12 12:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク