要約
大規模言語モデル (LLM) は、さまざまな NLP タスクにおいて優れた機能を実証してきました。
しかし、これまでの研究では、これらのモデルが即時の言葉遣い、数ショットのデモンストレーションとその順序に敏感であることが示されており、これらのモデルの公正な評価に課題が生じています。
これらのモデルがより強力になるにつれて、これらの制限を理解し、対処することが不可欠になります。
この論文では、LLM の推論と事実検索能力を研究するために一般的に採用されるタスクである多肢選択式質問のタスクにおける LLM の堅牢性に焦点を当てます。
多肢選択式の質問における選択肢の順序に対する LLM の感度を調査すると、回答の選択肢を並べ替えると、たとえ数回のショットでデモを使用した場合でも、さまざまなベンチマークで LLM に約 13% ~ 75% というかなりのパフォーマンス ギャップがあることが実証されました。
設定。
詳細な分析を通じて、この感度は、LLM が上位 2/3 の選択肢の間の予測について不確実な場合に発生し、特定のオプションの配置では、位置バイアスによって引き起こされる質問に応じて、これらの上位の選択肢間の特定の予測が有利になる可能性があると推測されます。
また、オプションの配置に対するモデルのバイアスを増幅または軽減する上位 2 つの選択肢のパターンも特定します。
バイアスを増幅するための最適な戦略には、上位 2 つの選択肢を最初と最後の選択肢として配置することが含まれることがわかりました。
逆に、バイアスを軽減するには、これらの選択肢を隣接する選択肢の中に配置することをお勧めします。
私たちの推測を検証するために、さまざまな実験を実施し、LLM の予測を調整する 2 つのアプローチを採用しました。これにより、さまざまなモデルやベンチマーク全体で最大 8 パーセントの改善が得られました。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities in various NLP tasks. However, previous works have shown these models are sensitive towards prompt wording, and few-shot demonstrations and their order, posing challenges to fair assessment of these models. As these models become more powerful, it becomes imperative to understand and address these limitations. In this paper, we focus on LLMs robustness on the task of multiple-choice questions — commonly adopted task to study reasoning and fact-retrieving capability of LLMs. Investigating the sensitivity of LLMs towards the order of options in multiple-choice questions, we demonstrate a considerable performance gap of approximately 13% to 75% in LLMs on different benchmarks, when answer options are reordered, even when using demonstrations in a few-shot setting. Through a detailed analysis, we conjecture that this sensitivity arises when LLMs are uncertain about the prediction between the top-2/3 choices, and specific options placements may favor certain prediction between those top choices depending on the question caused by positional bias. We also identify patterns in top-2 choices that amplify or mitigate the model’s bias toward option placement. We found that for amplifying bias, the optimal strategy involves positioning the top two choices as the first and last options. Conversely, to mitigate bias, we recommend placing these choices among the adjacent options. To validate our conjecture, we conduct various experiments and adopt two approaches to calibrate LLMs’ predictions, leading to up to 8 percentage points improvement across different models and benchmarks.
arxiv情報
著者 | Pouya Pezeshkpour,Estevam Hruschka |
発行日 | 2023-08-22 14:54:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google