要約
AIのリスクの検出は、より強力なモデルが出現し、これらの検出試行を回避するためのアライメントフェイクなどの新しい方法を見つけるにつれて、より困難になります。
人間の危険な行動(すなわち、他の人を傷つける可能性のある違法な活動)が強く保持されている価値によって導かれることがあることに触発されて、AIモデル内の値を特定することは、AIの危険な行動の早期警告システムになると考えています。
AI値クラスの範囲でAIモデルの優先順位を明らかにするための評価パイプラインであるLitMusValuesを作成します。
次に、AiriskDilemmasを収集します。これは、PITがパワーシーキングなどのAIの安全性リスクに関連するシナリオで、互いに互いに大評価を重視する多様なコレクションです。
AIモデルの値の優先順位付けを総合的な選択肢を使用して測定することにより、潜在的なリスクを明らかにする予測値の優先順位の自己整合性セットを取得します。
私たちは、litmusvalues(一見無害なものを含む)の値(ケアのような無害なものを含む)が、エアスディレンマスで見た危険な行動と、危害に見えるリスクのない行動の両方を予測できることを示しています。
要約(オリジナル)
Detecting AI risks becomes more challenging as stronger models emerge and find novel methods such as Alignment Faking to circumvent these detection attempts. Inspired by how risky behaviors in humans (i.e., illegal activities that may hurt others) are sometimes guided by strongly-held values, we believe that identifying values within AI models can be an early warning system for AI’s risky behaviors. We create LitmusValues, an evaluation pipeline to reveal AI models’ priorities on a range of AI value classes. Then, we collect AIRiskDilemmas, a diverse collection of dilemmas that pit values against one another in scenarios relevant to AI safety risks such as Power Seeking. By measuring an AI model’s value prioritization using its aggregate choices, we obtain a self-consistent set of predicted value priorities that uncover potential risks. We show that values in LitmusValues (including seemingly innocuous ones like Care) can predict for both seen risky behaviors in AIRiskDilemmas and unseen risky behaviors in HarmBench.
arxiv情報
著者 | Yu Ying Chiu,Zhilin Wang,Sharan Maiya,Yejin Choi,Kyle Fish,Sydney Levine,Evan Hubinger |
発行日 | 2025-05-20 17:24:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google