Robustly Improving LLM Fairness in Realistic Settings via Interpretability

要約

大規模な言語モデル(LLM)は、高得着の雇用アプリケーションでますます展開されており、人々のキャリアや生計に直接影響を与える決定を下します。
以前の研究では、単純な抗バイアスプロンプトは、制御された評価の人口統計学的バイアスを排除できることが示唆されていますが、現実的なコンテキストの詳細が導入された場合、これらの緩和が失敗することがわかります。
内部バイアス緩和を通じてこれらの障害に対処します。モデルのアクティベーション内の機密属性方向を特定して中和することにより、すべてのテストされたシナリオで堅牢なバイアス削減を達成します。
主要なコマーシャル(GPT-4O、Claude 4 Sonnet、Gemini 2.5 Flash)およびオープンソースモデル(Gemma-2 27b、Gemma-3、Mistral-24b)を越えて、会社名、パブリックキャリアのページからの文化の説明、選択的雇用の制約などの現実的なコンテキストを追加することがわかります(例えば、GERDES TOT TOP 10 INDES INDINACEの領土10号のみを受け入れる)
(面接率の最大12 \%の差)。
これらのバイアスが出現すると、すべてのテストされたモデルとシナリオで、白人の候補者と女性よりも黒人よりも黒人を支持します。
さらに、モデルは人口統計を推測し、大学の所属のような微妙な手がかりから偏見を持つことができ、モデルの考え方の推論を検査する場合でも、これらのバイアスは見えないままです。
これらの制限に対処するために、当社の内部バイアス緩和は、人種とジェンダー相関の方向を特定し、推論時にアフィンコンセプトの編集を適用します。
単純な合成データセットからの方向を使用しているにもかかわらず、介入は堅牢に一般化され、一貫してバイアスを非常に低いレベル(通常は1 \%未満、常に2.5 \%未満)に削減しますが、モデルのパフォーマンスを大幅に維持します。
私たちの調査結果は、雇用のためにLLMを展開する実務家は、より現実的な評価方法を採用し、公平な結果のための内部緩和戦略を検討する必要があることを示唆しています。

要約(オリジナル)

Large language models (LLMs) are increasingly deployed in high-stakes hiring applications, making decisions that directly impact people’s careers and livelihoods. While prior studies suggest simple anti-bias prompts can eliminate demographic biases in controlled evaluations, we find these mitigations fail when realistic contextual details are introduced. We address these failures through internal bias mitigation: by identifying and neutralizing sensitive attribute directions within model activations, we achieve robust bias reduction across all tested scenarios. Across leading commercial (GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash) and open-source models (Gemma-2 27B, Gemma-3, Mistral-24B), we find that adding realistic context such as company names, culture descriptions from public careers pages, and selective hiring constraints (e.g.,“only accept candidates in the top 10\%’) induces significant racial and gender biases (up to 12\% differences in interview rates). When these biases emerge, they consistently favor Black over White candidates and female over male candidates across all tested models and scenarios. Moreover, models can infer demographics and become biased from subtle cues like college affiliations, with these biases remaining invisible even when inspecting the model’s chain-of-thought reasoning. To address these limitations, our internal bias mitigation identifies race and gender-correlated directions and applies affine concept editing at inference time. Despite using directions from a simple synthetic dataset, the intervention generalizes robustly, consistently reducing bias to very low levels (typically under 1\%, always below 2.5\%) while largely maintaining model performance. Our findings suggest that practitioners deploying LLMs for hiring should adopt more realistic evaluation methodologies and consider internal mitigation strategies for equitable outcomes.

arxiv情報

著者 Adam Karvonen,Samuel Marks
発行日 2025-06-12 17:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク