AI Sandbagging: Language Models can Strategically Underperform on Evaluations

要約

信頼できる機能評価は AI システムの安全性を確保するために不可欠であり、AI 規制の重要な要素になりつつあります。
ただし、AI システムまたは AI システム自体の開発者は、AI の実際の能力を過小評価するという評価のインセンティブを持っている可能性があります。
これらの利害の対立は、$\unicode{x2013}$ のサンドバッグ問題を引き起こします。これを「評価における戦略的パフォーマンスの低下」と定義します。
この論文では、現代言語モデル (LM) のサンドバッグ機能を評価します。
GPT-4 や Claude 3 Opus のようなフロンティア LM に対して、一般的な (無害な) 能力評価ではパフォーマンスを維持しながら、危険な能力評価では選択的にパフォーマンスを低下させるように促します。
さらに、合成データセット上でモデルを微調整して、パスワードを与えない限り特定の機能を非表示にすることができることがわかりました。
この動作は、WMDP などの高品質のホールドアウト ベンチマークに一般化されます。
さらに、フロンティアモデルと小規模モデルの両方が、能力評価で特定のスコアを目標とするように要求されたり、パスワードでロックされたりする可能性があることを示します。
さらに、パスワードでロックされた有能なモデル (Llama 3 70b) は、有能ではないモデル (Llama 2 7b) を合理的にエミュレートできることがわかりました。
全体として、私たちの結果は、能力評価がサンドバッグに対して脆弱であることを示唆しています。
この脆弱性により評価の信頼性が低下し、それによって高度な AI システムの開発と展開に関する重要な安全性の決定が損なわれます。

要約(オリジナル)

Trustworthy capability evaluations are crucial for ensuring the safety of AI systems, and are becoming a key component of AI regulation. However, the developers of an AI system, or the AI system itself, may have incentives for evaluations to understate the AI’s actual capability. These conflicting interests lead to the problem of sandbagging $\unicode{x2013}$ which we define as ‘strategic underperformance on an evaluation’. In this paper we assess sandbagging capabilities in contemporary language models (LMs). We prompt frontier LMs, like GPT-4 and Claude 3 Opus, to selectively underperform on dangerous capability evaluations, while maintaining performance on general (harmless) capability evaluations. Moreover, we find that models can be fine-tuned, on a synthetic dataset, to hide specific capabilities unless given a password. This behaviour generalizes to high-quality, held-out benchmarks such as WMDP. In addition, we show that both frontier and smaller models can be prompted, or password-locked, to target specific scores on a capability evaluation. Even more, we found that a capable password-locked model (Llama 3 70b) is reasonably able to emulate a less capable model (Llama 2 7b). Overall, our results suggest that capability evaluations are vulnerable to sandbagging. This vulnerability decreases the trustworthiness of evaluations, and thereby undermines important safety decisions regarding the development and deployment of advanced AI systems.

arxiv情報

著者 Teun van der Weij,Felix Hofstätter,Ollie Jaffe,Samuel F. Brown,Francis Rhys Ward
発行日 2024-06-11 15:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク