Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective

要約

大規模な言語モデル(LLM)は、多くの場合、訓練されているデータの結果として、社会的、人口統計学的、性別バイアスを示すことが知られています。
この作業では、GPT-2やLlama2などのモデル内で、そのようなバイアスがどのように構造的に表現されるかを分析するために、機械的解釈可能性アプローチを採用します。
人口統計学的および性別のバイアスに焦点を当て、さまざまな指標を探り、偏った動作の原因となる内部エッジを特定します。
次に、データセットと言語のバリエーション全体のこれらのコンポーネントの安定性、ローカリゼーション、および一般化可能性を評価します。
体系的なアブレーションを通じて、バイアス関連の計算は高度に局所化されており、多くの場合、層の小さなサブセットに集中していることを実証します。
さらに、特定されたコンポーネントは、バイアスとは関係のないものを含む微調整設定全体で変化します。
最後に、これらのコンポーネントを削除すると、偏った出力が減少するだけでなく、これらのタスクと重要なコンポーネントを共有するために、名前付きエンティティ認識や言語の受け入れ可能性判断など、他のNLPタスクにも影響することが示されます。

要約(オリジナル)

Large Language Models (LLMs) are known to exhibit social, demographic, and gender biases, often as a consequence of the data on which they are trained. In this work, we adopt a mechanistic interpretability approach to analyze how such biases are structurally represented within models such as GPT-2 and Llama2. Focusing on demographic and gender biases, we explore different metrics to identify the internal edges responsible for biased behavior. We then assess the stability, localization, and generalizability of these components across dataset and linguistic variations. Through systematic ablations, we demonstrate that bias-related computations are highly localized, often concentrated in a small subset of layers. Moreover, the identified components change across fine-tuning settings, including those unrelated to bias. Finally, we show that removing these components not only reduces biased outputs but also affects other NLP tasks, such as named entity recognition and linguistic acceptability judgment because of the sharing of important components with these tasks.

arxiv情報

著者 Bhavik Chandna,Zubair Bashir,Procheta Sen
発行日 2025-06-06 01:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク