Aligned Probing: Relating Toxic Behavior and Model Internals

要約

Aligned Probingを導入します。これは、出力と内部表現(内部)に基づいて、言語モデル(LMS)の動作を整列させる新しい解釈可能性フレームワークです。
このフレームワークを使用して、20を超えるOlmo、Llama、およびMistralモデルを調べ、毒性の行動と内部の視点を初めて橋渡しします。
我々の結果は、LMSが入力の毒性レベルとその後の出力、特に下層層での情報を強くエンコードすることを示しています。
LMSがどのように異なるかに焦点を当てることは、入力毒性に関する情報を強くエンコードするときに、より少ない毒性出力を生成するという相関的および因果的証拠の両方を提供します。
また、モデルの行動と内部は脅威などの一意の属性によって異なるため、毒性の不均一性を強調します。
最後に、解毒、マルチプロムプト評価、モデルの量子化、およびトレーニング前のダイナミクスを分析する4つのケーススタディが、さらに具体的な洞察を備えた調整プローブの実際的な影響を強調しています。
私たちの調査結果は、毒性の文脈内外でのLMSのより全体的な理解に貢献しています。

要約(オリジナル)

We introduce aligned probing, a novel interpretability framework that aligns the behavior of language models (LMs), based on their outputs, and their internal representations (internals). Using this framework, we examine over 20 OLMo, Llama, and Mistral models, bridging behavioral and internal perspectives for toxicity for the first time. Our results show that LMs strongly encode information about the toxicity level of inputs and subsequent outputs, particularly in lower layers. Focusing on how unique LMs differ offers both correlative and causal evidence that they generate less toxic output when strongly encoding information about the input toxicity. We also highlight the heterogeneity of toxicity, as model behavior and internals vary across unique attributes such as Threat. Finally, four case studies analyzing detoxification, multi-prompt evaluations, model quantization, and pre-training dynamics underline the practical impact of aligned probing with further concrete insights. Our findings contribute to a more holistic understanding of LMs, both within and beyond the context of toxicity.

arxiv情報

著者 Andreas Waldis,Vagrant Gautam,Anne Lauscher,Dietrich Klakow,Iryna Gurevych
発行日 2025-03-17 17:23:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク