Shifting Perspectives: Steering Vector Ensembles for Robust Bias Mitigation in LLMs

要約

ステアリングベクトルを適用して、前方パスでモデルのアクティベーションを変更することにより、大規模な言語モデル(LLMS)でバイアス緩和を緩和するための新しいアプローチを提示します。
ベイジアンの最適化を採用して、9つのバイアス軸にわたって効果的な対照ペアデータセットを体系的に識別します。
BBQデータセットで最適化されると、個別に調整されたステアリングベクトルは、それぞれミストラル、ラマ、およびQwenのベースラインで12.2%、4.7%、および3.2%の平均改善を達成します。
これらの有望な結果に基づいて、ステアリングベクトルアンサンブル(SVE)を導入します。これは、個別に最適化された複数のステアリングベクトルを平均化する方法で、それぞれが年齢、人種、性別などの特定のバイアス軸をターゲットにしています。
集合的な強さを活用することにより、SVEはバイアスの削減とモデルのパフォーマンスの維持の両方で個々のステアリングベクターよりも優れています。
この作業は、バイアス緩和のためのステアリングベクターの最初の体系的な調査を提示し、SVEはLLMSのバイアスを削減するための強力で計算効率の高い戦略であり、AIの安全性を高めるためのより広範な影響を示していることを実証します。

要約(オリジナル)

We present a novel approach to bias mitigation in large language models (LLMs) by applying steering vectors to modify model activations in forward passes. We employ Bayesian optimization to systematically identify effective contrastive pair datasets across nine bias axes. When optimized on the BBQ dataset, our individually tuned steering vectors achieve average improvements of 12.2%, 4.7%, and 3.2% over the baseline for Mistral, Llama, and Qwen, respectively. Building on these promising results, we introduce Steering Vector Ensembles (SVE), a method that averages multiple individually optimized steering vectors, each targeting a specific bias axis such as age, race, or gender. By leveraging their collective strength, SVE outperforms individual steering vectors in both bias reduction and maintaining model performance. The work presents the first systematic investigation of steering vectors for bias mitigation, and we demonstrate that SVE is a powerful and computationally efficient strategy for reducing bias in LLMs, with broader implications for enhancing AI safety.

arxiv情報

著者 Zara Siddique,Irtaza Khalid,Liam D. Turner,Luis Espinosa-Anke
発行日 2025-03-07 12:25:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク