How to evaluate control measures for LLM agents? A trajectory from today to superintelligence

要約

LLMエージェントが自律的に害を引き起こす能力を高めるにつれて、AI開発者は、ますます洗練された制御措置に依存して、エージェントが故障する可能性がある可能性があります。
AI開発者は、制御評価を実行することで、制御手段が十分であることを実証できます。これは、Redチームが制御測定を破壊しようとするエージェントを生成するテスト演習です。
制御評価が不整合のリスクを正確にキャプチャするようにするために、この赤いチームに付与されたアフォーダンスは、制御措置の下で展開されるエージェントの機能プロファイルに適応する必要があります。
このペーパーでは、赤チームのアフォーダンスをAI機能の前進に適応させるための体系的なフレームワークを提案します。
エージェントが常に人間に知られている最良の攻撃戦略を実行すると仮定するのではなく、エージェントの実際の能力プロファイルの知識が比例制御評価にどのように情報を提供し、より実用的で費用対効果の高い制御対策をもたらすことができるかを示します。
徐々に高度な機能を備えた5つの架空のモデル(M1-M5)のシーケンスを検討し、5つの異なるAI制御レベル(ACL)を定義することにより、フレームワークを説明します。
各ACLについて、適切な可能性のある制御評価、制御測定、および安全性のケースの例の例を提供します。
最後に、Superintelligent LLMエージェントの説得力のあるAI制御安全ケースを構築することで、研究のブレークスルーが必要である理由を示し、最終的に不整合リスクを軽減するための代替アプローチが必要になる可能性があることを強調します。

要約(オリジナル)

As LLM agents grow more capable of causing harm autonomously, AI developers will rely on increasingly sophisticated control measures to prevent possibly misaligned agents from causing harm. AI developers could demonstrate that their control measures are sufficient by running control evaluations: testing exercises in which a red team produces agents that try to subvert control measures. To ensure control evaluations accurately capture misalignment risks, the affordances granted to this red team should be adapted to the capability profiles of the agents to be deployed under control measures. In this paper we propose a systematic framework for adapting affordances of red teams to advancing AI capabilities. Rather than assuming that agents will always execute the best attack strategies known to humans, we demonstrate how knowledge of an agents’s actual capability profile can inform proportional control evaluations, resulting in more practical and cost-effective control measures. We illustrate our framework by considering a sequence of five fictional models (M1-M5) with progressively advanced capabilities, defining five distinct AI control levels (ACLs). For each ACL, we provide example rules for control evaluation, control measures, and safety cases that could be appropriate. Finally, we show why constructing a compelling AI control safety case for superintelligent LLM agents will require research breakthroughs, highlighting that we might eventually need alternative approaches to mitigating misalignment risk.

arxiv情報

著者 Tomek Korbak,Mikita Balesni,Buck Shlegeris,Geoffrey Irving
発行日 2025-04-07 16:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク