Anchored Answers: Unravelling Positional Bias in GPT-2’s Multiple-Choice Questions

要約

GPT-4やLLaMAのような大規模言語モデル(LLM)は、多肢選択問題(MCQ)を含む様々なタスクで大きな成功を収めている。しかし、これらのモデルには位置バイアスがあり、特にGPT-2ファミリーのアンカーバイアスはさらにひどく、推論中にMCQの第一選択肢’A’を一貫して支持する。このアンカードバイアスは、MCQにおける選択肢の内容よりもむしろ位置に基づいてパフォーマンスを歪めるため、GPT-2の意思決定プロセスの完全性に疑問を投げかけるものである。本研究では、このバイアスを引き起こすGPT-2モデル内の内部モジュールを特定するために、力学的解釈可能性アプローチを利用する。多層パーセプトロン(MLP)層とアテンションヘッドに注目し、「ロジットレンズ」法を用いて、バイアスに寄与する特定の値ベクトルを追跡し、修正する。MLP内でこれらのベクトルを更新し、注意パターンを再調整して、最初の選択肢「A」への選好を中和することで、アンカーされたバイアスを効果的に緩和する。我々の介入はバイアスを修正するだけでなく、様々なデータセットにおけるGPT-2ファミリーの全体的なMCQ予測精度も向上させた。この研究は、GPT-2モデルにおけるMCQのアンカーバイアスの最初の包括的なメカニズム分析であり、MCQにおけるGPT2モデルの頑健性と精度を大幅に向上させる、的を絞った最小限の介入戦略を導入するものである。我々のコードはhttps://github.com/ruizheliUOA/Anchored_Bias_GPT2。

要約(オリジナル)

Large Language Models (LLMs), such as the GPT-4 and LLaMA families, have demonstrated considerable success across diverse tasks, including multiple-choice questions (MCQs). However, these models exhibit a positional bias, particularly an even worse anchored bias in the GPT-2 family, where they consistently favour the first choice ‘A’ in MCQs during inference. This anchored bias challenges the integrity of GPT-2’s decision-making process, as it skews performance based on the position rather than the content of the choices in MCQs. In this study, we utilise the mechanistic interpretability approach to identify the internal modules within GPT-2 models responsible for this bias. We focus on the Multi-Layer Perceptron (MLP) layers and attention heads, using the ‘logit lens’ method to trace and modify the specific value vectors that contribute to the bias. By updating these vectors within MLP and recalibrating attention patterns to neutralise the preference for the first choice ‘A’, we effectively mitigate the anchored bias. Our interventions not only correct the bias but also improve the overall MCQ prediction accuracy for the GPT-2 family across various datasets. This work represents the first comprehensive mechanistic analysis of anchored bias in MCQs within the GPT-2 models, introducing targeted, minimal-intervention strategies that significantly enhance GPT2 model robustness and accuracy in MCQs. Our code is available at https://github.com/ruizheliUOA/Anchored_Bias_GPT2.

arxiv情報

著者 Ruizhe Li,Yanjun Gao
発行日 2024-05-06 07:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク