Eliminating Position Bias of Language Models: A Mechanistic Approach

要約

位置バイアスは、現代言語モデル (LM) の一般的な問題であることが証明されており、モデルは特定のコンテキスト内での位置に基づいてコンテンツに優先順位を付けます。
このバイアスは、多くの場合、予期しないモデルの障害を引き起こし、さまざまなアプリケーションにわたってパフォーマンス、堅牢性、信頼性を損ないます。
私たちのメカニズム分析では、位置バイアスは、ほとんどすべての最先端の LM で採用されている 2 つのコンポーネント、つまり因果的注意と相対位置エンコーディングによるものであると考えられます。
分析に基づいて、トレーニング不要のゼロショット アプローチで位置バイアス (たとえば、QA で取得されたドキュメントの順序が異なるとパフォーマンスに影響を与える) を排除することを提案します。
私たちの方法は、因果的アテンションをドキュメント間の双方向アテンションに変更し、入力プロンプトで提供される順序を使用する代わりにモデル アテンション値を利用してドキュメントの相対順序を決定するため、ドキュメント レベルで位置不変推論 (PINE) が可能になります。
位置バイアスを排除することで、モデルは、審査員としての LM、検索拡張 QA、分子生成、数学的推論などの下流タスクでのパフォーマンスと信頼性の向上を実現します。
特に、PINE は、推論ペアを評価するために LM を適応させる場合に特に役立ちます。PINE は、一貫して 8 ~ 10 パーセント ポイントのパフォーマンス向上を実現し、Llama-3-70B-Instruct のパフォーマンスを GPT-4-0125-preview や GPT-4o-2024 よりもさらに向上させます。
-08-06 RewardBench 推論セット。

要約(オリジナル)

Position bias has proven to be a prevalent issue of modern language models (LMs), where the models prioritize content based on its position within the given context. This bias often leads to unexpected model failures and hurts performance, robustness, and reliability across various applications. Our mechanistic analysis attributes the position bias to two components employed in nearly all state-of-the-art LMs: causal attention and relative positional encodings. Based on the analyses, we propose to eliminate position bias (e.g., different retrieved documents’ orders in QA affect performance) with a training-free zero-shot approach. Our method changes the causal attention to bidirectional attention between documents and utilizes model attention values to decide the relative orders of documents instead of using the order provided in input prompts, therefore enabling Position-INvariant inferencE (PINE) at the document level. By eliminating position bias, models achieve better performance and reliability in downstream tasks, including LM-as-a-judge, retrieval-augmented QA, molecule generation, and math reasoning. Notably, PINE is especially useful when adapting LMs for evaluating reasoning pairs: it consistently provides 8 to 10 percentage points performance gains, making Llama-3-70B-Instruct perform even better than GPT-4-0125-preview and GPT-4o-2024-08-06 on the RewardBench reasoning set.

arxiv情報

著者 Ziqi Wang,Hanlin Zhang,Xiner Li,Kuan-Hao Huang,Chi Han,Shuiwang Ji,Sham M. Kakade,Hao Peng,Heng Ji
発行日 2024-10-02 17:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク