Look at the Text: Instruction-Tuned Language Models are More Robust Multiple Choice Selectors than You Think

要約

多肢選択質問 (MCQ) は、大規模言語モデル (LLM) の機能を評価するためによく使用されます。
モデル応答を評価する一般的な方法の 1 つは、最初のトークン予測の対数確率に基づいて候補応答をランク付けすることです。
別の方法は、テキスト出力を調べることです。
これまでの研究では、最初のトークンの確率は MCQ の表現の変更に対する堅牢性に欠けており、最初のトークンの確率は命令調整モデルのテキスト回答と一致しないことが示されています。
したがって、この論文では、テキスト回答の堅牢性を調査します。
最初のトークンの回答がテキストの回答と一致しない場合、テキストの回答は最初のトークンの確率よりも質問の摂動に対して堅牢であることを示します。
不一致率が大きくなるにつれて、ロバスト性の差は大きくなります。
不一致が 50\% 以上に達すると、テキストの回答は、PriDe などの最先端のバイアス緩和手法を使用してバイアスを緩和した最初のトークンの確率よりも、オプション注文の変更に対してより堅牢になります。
私たちの調査結果は、最初のトークンの確率評価よりもテキスト回答評価の利点を示すさらなる証拠を提供します。

要約(オリジナル)

Multiple choice questions (MCQs) are commonly used to evaluate the capabilities of large language models (LLMs). One common way to evaluate the model response is to rank the candidate answers based on the log probability of the first token prediction. An alternative way is to examine the text output. Prior work has shown that first token probabilities lack robustness to changes in MCQ phrasing, and that first token probabilities do not match text answers for instruction-tuned models. Therefore, in this paper, we investigate the robustness of text answers. We show that the text answers are more robust to question perturbations than the first token probabilities, when the first token answers mismatch the text answers. The difference in robustness increases as the mismatch rate becomes greater. As the mismatch reaches over 50\%, the text answer is more robust to option order changes than the debiased first token probabilities using state-of-the-art debiasing methods such as PriDe. Our findings provide further evidence for the benefits of text answer evaluation over first token probability evaluation.

arxiv情報

著者 Xinpeng Wang,Chengzhi Hu,Bolei Ma,Paul Röttger,Barbara Plank
発行日 2024-04-12 10:36:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク