Evaluating Frontier Models for Stealth and Situational Awareness

要約

最近の研究では、フロンティアAIのモデルが、開発者の意図とずれた目的を故意に密かに追い求めるという、陰謀を企てる可能性があることが実証されている。このような行動は検出が非常に困難であり、将来の高度なシステムに存在する場合、深刻な制御不能のリスクをもたらす可能性がある。従って、AI開発者にとって、モデル展開の前に策謀による害を排除することは重要である。本論文では、スキームを成功させるための前提条件であると考えられる、2種類の推論能力を測定するスキーム推論評価一式を提示する:第一に、見落としを推論し回避する(ステルス)能力に関する5つの評価を提案する。第二に、モデルが自分自身、環境、展開(状況認識)について道具的に推論する能力を測定するための11の評価を提示する。これらの評価で成功しなかったモデルは、実際の配備において、スキームによって深刻な被害を引き起こすことはほぼ確実に不可能である。これらの評価で成功しなかったモデルは、実際の配備において、スキームによって深刻な被害を引き起こすことはほぼ確実に不可能である。我々は、現在のフロンティアモデルに対して評価を実行し、どのモデルも状況認識とステルスのいずれについても懸念されるレベルを示さないことを発見した。

要約(オリジナル)

Recent work has demonstrated the plausibility of frontier AI models scheming — knowingly and covertly pursuing an objective misaligned with its developer’s intentions. Such behavior could be very hard to detect, and if present in future advanced systems, could pose severe loss of control risk. It is therefore important for AI developers to rule out harm from scheming prior to model deployment. In this paper, we present a suite of scheming reasoning evaluations measuring two types of reasoning capabilities that we believe are prerequisites for successful scheming: First, we propose five evaluations of ability to reason about and circumvent oversight (stealth). Second, we present eleven evaluations for measuring a model’s ability to instrumentally reason about itself, its environment and its deployment (situational awareness). We demonstrate how these evaluations can be used as part of a scheming inability safety case: a model that does not succeed on these evaluations is almost certainly incapable of causing severe harm via scheming in real deployment. We run our evaluations on current frontier models and find that none of them show concerning levels of either situational awareness or stealth.

arxiv情報

著者 Mary Phuong,Roland S. Zimmermann,Ziyue Wang,David Lindner,Victoria Krakovna,Sarah Cogan,Allan Dafoe,Lewis Ho,Rohin Shah
発行日 2025-05-02 17:57:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク