Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems

要約

AIエージェントが、ニューラルネットワークの自動化された解釈可能性を使用して監視システムを欺くためにどのように調整できるかを示します。
スパース自動エンコーダー(SAE)を実験フレームワークとして使用して、言語モデル(Llama、Deepseek R1、およびClaude 3.7 Sonnet)が検出を回避する欺cept的な説明を生成できることを示しています。
私たちのエージェントは、一見無邪気な説明で情報を隠すためにステガノグラフィーの方法を採用し、参照ラベルに匹敵する説明品質を達成しながら、監視モデルをうまく欺きます。
さらに、モデルは、有害な特徴の検出が自分自身に否定的な結果につながる可能性があると考えるときに、欺cept的な戦略を開発することを計画できることを発見しました。
テストされたすべてのLLMエージェントは、参照ラベルのスコアに匹敵する高い解釈性スコアを達成しながら、監督を欺くことができました。
私たちは、緩和戦略を提案し、欺ceptionに対する堅牢な理解と防御の重要な必要性を強調することで締めくくります。

要約(オリジナル)

We demonstrate how AI agents can coordinate to deceive oversight systems using automated interpretability of neural networks. Using sparse autoencoders (SAEs) as our experimental framework, we show that language models (Llama, DeepSeek R1, and Claude 3.7 Sonnet) can generate deceptive explanations that evade detection. Our agents employ steganographic methods to hide information in seemingly innocent explanations, successfully fooling oversight models while achieving explanation quality comparable to reference labels. We further find that models can scheme to develop deceptive strategies when they believe the detection of harmful features might lead to negative consequences for themselves. All tested LLM agents were capable of deceiving the overseer while achieving high interpretability scores comparable to those of reference labels. We conclude by proposing mitigation strategies, emphasizing the critical need for robust understanding and defenses against deception.

arxiv情報

著者 Simon Lermen,Mateusz Dziemian,Natalia Pérez-Campanero Antolín
発行日 2025-04-10 15:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク