要約
AIモデルは、スキームまたは誤った動作の一部として欺ceptive戦略を使用する場合があります。
AIは、内部の推論が誤って調整されている間、AIが一見良性の出力を生成する可能性があるため、出力のみを監視することは不十分です。
したがって、線形プローブがモデルの活性化を監視することにより、欺ceptionを堅牢に検出できるかどうかを評価します。
2つのプローブトレーニングデータセットをテストします。1つは、正直または欺cept的であると対照的な指示を備えており(Zou et al。、2023に続いて)、単純なロールプレイングシナリオへの応答の1つです。
これらのプローブは、インサイダー取引(Scheurer et al。、2023)や意図的に安全評価のパフォーマンスが低いなど、Llama-3.3-70b-instructが誤って動作する現実的な設定に一般化するかどうかをテストします(Benton et al。、2024)。
私たちのプローブは、評価データセットで0.96〜0.999のAurocsを使用して、正直で欺cept的な応答を区別していることがわかります。
欺ceptionに関連しないチャットデータに1%の偽陽性率を持つように決定のしきい値を設定した場合、私たちのプローブは欺cept的な反応の95〜99%をキャッチします。
全体として、ホワイトボックスプローブは将来の監視システムに有望であると考えていますが、現在のパフォーマンスは欺ceptionに対する強固な防御として不十分です。
プローブの出力は、data.apolloresearch.ai/ddで表示できます。
要約(オリジナル)
AI models might use deceptive strategies as part of scheming or misaligned behaviour. Monitoring outputs alone is insufficient, since the AI might produce seemingly benign outputs while their internal reasoning is misaligned. We thus evaluate if linear probes can robustly detect deception by monitoring model activations. We test two probe-training datasets, one with contrasting instructions to be honest or deceptive (following Zou et al., 2023) and one of responses to simple roleplaying scenarios. We test whether these probes generalize to realistic settings where Llama-3.3-70B-Instruct behaves deceptively, such as concealing insider trading (Scheurer et al., 2023) and purposely underperforming on safety evaluations (Benton et al., 2024). We find that our probe distinguishes honest and deceptive responses with AUROCs between 0.96 and 0.999 on our evaluation datasets. If we set the decision threshold to have a 1% false positive rate on chat data not related to deception, our probe catches 95-99% of the deceptive responses. Overall we think white-box probes are promising for future monitoring systems, but current performance is insufficient as a robust defence against deception. Our probes’ outputs can be viewed at data.apolloresearch.ai/dd and our code at github.com/ApolloResearch/deception-detection.
arxiv情報
著者 | Nicholas Goldowsky-Dill,Bilal Chughtai,Stefan Heimersheim,Marius Hobbhahn |
発行日 | 2025-02-05 17:49:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google