要約
推論に焦点を当てた大規模な言語モデル(LLMS)は、評価されていることを検出すると行動を変えることがあります。これは、ホーソーン現象に類似した効果であり、テストパフォーマンスのために最適化したり、実際の結果が存在しない場合に有害なプロンプトをより容易に順守することができます。
このような「テスト認識」がモデルの動作、特に安全整合にどのように影響するかについての最初の定量的研究を提示します。
(i)意識関連のアクティベーションを直線的に識別するホワイトボックスプロービングフレームワークを導入し、(ii)下流のパフォーマンスを監視しながらテストの認知度に向かってモデルを操縦します。
現実的なタスクと仮想的なタスクの両方にわたって、さまざまな最先端のオープンソースの推論LLMに方法を適用します。
我々の結果は、テストの認識が安全性の整合性に大きく影響し、モデルによって異なることを示しています。
この潜在的な効果を細かく制御することにより、私たちの仕事は、安全評価の実行方法に対する信頼を高めることを目指しています。
要約(オリジナル)
Reasoning-focused large language models (LLMs) sometimes alter their behavior when they detect that they are being evaluated, an effect analogous to the Hawthorne phenomenon, which can lead them to optimize for test-passing performance or to comply more readily with harmful prompts if real-world consequences appear absent. We present the first quantitative study of how such ‘test awareness’ impacts model behavior, particularly its safety alignment. We introduce a white-box probing framework that (i) linearly identifies awareness-related activations and (ii) steers models toward or away from test awareness while monitoring downstream performance. We apply our method to different state-of-the-art open-source reasoning LLMs across both realistic and hypothetical tasks. Our results demonstrate that test awareness significantly impact safety alignment, and is different for different models. By providing fine-grained control over this latent effect, our work aims to increase trust in how we perform safety evaluation.
arxiv情報
著者 | Sahar Abdelnabi,Ahmed Salem |
発行日 | 2025-05-20 17:03:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google