An Example Safety Case for Safeguards Against Misuse

要約

AI誤用セーフガードの既存の評価は、実際の決定に接続することがしばしば困難な証拠のパッチワークを提供します。
このギャップを埋めるために、AIアシスタントがもたらすリスクを低レベルに減らす保護を誤用するというエンドツーエンドの議論(「安全ケース」)について説明します。
最初に、仮想開発者の赤チームがどのように保護するかを説明し、それらを回避するために必要な努力を推定します。
次に、開発者はこの推定値を定量的な「隆起モデル」にプラグインして、セーフガードによって導入された障壁をどの程度の障害を誤用するかを判断します(https://www.aimisusemodel.com/)。
この手順は、展開中のリスクの継続的な信号を提供し、開発者が新たな脅威に迅速に対応するのに役立ちます。
最後に、これらのコンポーネントを単純な安全ケースに結び付ける方法について説明します。
私たちの仕事は、AI誤用のリスクを厳密に正当化するための1つの具体的なパスを提供します。

要約(オリジナル)

Existing evaluations of AI misuse safeguards provide a patchwork of evidence that is often difficult to connect to real-world decisions. To bridge this gap, we describe an end-to-end argument (a ‘safety case’) that misuse safeguards reduce the risk posed by an AI assistant to low levels. We first describe how a hypothetical developer red teams safeguards, estimating the effort required to evade them. Then, the developer plugs this estimate into a quantitative ‘uplift model’ to determine how much barriers introduced by safeguards dissuade misuse (https://www.aimisusemodel.com/). This procedure provides a continuous signal of risk during deployment that helps the developer rapidly respond to emerging threats. Finally, we describe how to tie these components together into a simple safety case. Our work provides one concrete path — though not the only path — to rigorously justifying AI misuse risks are low.

arxiv情報

著者 Joshua Clymer,Jonah Weinbaum,Robert Kirk,Kimberly Mai,Selena Zhang,Xander Davies
発行日 2025-05-23 15:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク