Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

要約

AIコントロールプロトコルは、AIが意図的に何らかの容認できない結果を引き起こすことを防ぐAIシステムを有効に展開するための計画です。
以前の研究では、人間が作成した戦略に従ってAIを使用してプロトコルを破壊することにより、プロトコルを評価しました。
このホワイトペーパーでは、AIシステムがステートレスに動作しながら、コントロールプロトコルを破壊するための独自の戦略をどの程度生成し、行動できるかを調査します(コンテキスト間でメモリ間で共有されていません)。
これを行うには、AIシステムが各コンテキストで最適な計画を確実に生成し、適切に調整された確率でアクションを実行し、コミュニケーションせずに他のインスタンスと調整する必要がある場合があります。
幅広い環境のスイートであるSubversion Strategy Evalを開発し、さまざまなプロトコルと戦略的能力をカバーし、個々の能力を分離するのに役立つ6セットのアフォーダンスをカバーしています。
検査に評価を実装し、オープンソースをリリースします。
有用なみのバージョンやOpenAI推論モデルを含むClaude 3.5モデルを評価します。
いずれのモデルでも、制御プロトコルをステートルに破壊するための戦略化における実質的な能力を示していません。
ただし、コンテキスト間で計画を共有する能力など、モデルを追加のアフォーダンスを提供すると、パフォーマンスが大幅に向上する可能性があります。
私たちの評価は、モデルが制御プロトコルを破壊することができる時期の主要な指標として機能し、AI制御評価における完全な戦略能力の最悪の仮定を緩和できることを願っています。

要約(オリジナル)

An AI control protocol is a plan for usefully deploying AI systems that prevents an AI from intentionally causing some unacceptable outcome. Previous work evaluated protocols by subverting them using an AI following a human-written strategy. This paper investigates how well AI systems can generate and act on their own strategies for subverting control protocols whilst operating statelessly (without shared memory between contexts). To do this, an AI system may need to reliably generate optimal plans in each context, take actions with well-calibrated probabilities, and coordinate plans with other instances of itself without communicating. We develop Subversion Strategy Eval, a suite of eight environments, covering a range of protocols and strategic capabilities, and six sets of affordances that help isolate individual capabilities. We implement the evaluation in Inspect-AI and release it open-source. We evaluate Claude 3.5 models, including helpful-only versions, as well as OpenAI reasoning models. None of the models demonstrate substantial capability in strategizing to subvert control protocols statelessly. However, providing models with additional affordances, such as the ability to share a plan between contexts, can substantially improve performance. We hope our evaluations can act as a leading indicator for when models are capable of subverting control protocols and also relax the worst-case assumption of perfect strategic ability in AI control evaluations.

arxiv情報

著者 Alex Mallen,Charlie Griffin,Misha Wagner,Alessandro Abate,Buck Shlegeris
発行日 2025-03-19 16:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク