Leveraging Large Language Models for Multiple Choice Question Answering

要約

GPT-3 のような大規模言語モデル (LLM) は、0 回、1 回、および数回の設定で多肢選択式質問応答 (MCQA) タスクで印象的な結果を達成しましたが、一般に、MCQA の最新技術 (SOTA) に遅れをとっています。
MCQA タスクは、伝統的にクローズ タスクのように LLM に提示されてきました。
LLM は (関連する回答オプションなしで) 質問に条件付けられ、その選択されたオプションは、正規化 (長さなど) の後に最も高い確率が割り当てられたものです。
より自然なプロンプトのアプローチは、LLM に質問と回答のオプションを一緒に提示し、選択した回答のオプションに関連付けられた記号 (たとえば、「A」) を LLM に出力させることです。
このアプローチにより、モデルは回答オプションを明示的に比較し、計算コストを削減し、回答選択に対するトークン化スキームと回答オプション表現の影響を軽減できます。
自然なアプローチが効果的であるためには、それが使用される LLM は、回答オプションをそれらを表す記号と関連付けることができなければなりません。
LLM には、複数選択シンボル バインディング (MCSB) 機能と呼ばれるものが必要です。
この能力はモデルによって大きく異なります。
高い MCSB 能力を持つモデルは、20 の多様なデータセット全体で従来のアプローチよりも自然なアプローチではるかに優れたパフォーマンスを示し、SOTA とのギャップを大幅に埋めます。これは、LLM の MCQA 能力が以前は過小評価されていたことを示唆しています。

要約(オリジナル)

While large language models (LLMs) like GPT-3 have achieved impressive results on multiple choice question answering (MCQA) tasks in the zero, one, and few-shot settings, they generally lag behind the MCQA state of the art (SOTA). MCQA tasks have traditionally been presented to LLMs like cloze tasks. An LLM is conditioned on a question (without the associated answer options) and its chosen option is the one assigned the highest probability after normalization (for length, etc.). A more natural prompting approach is to present the question and answer options to the LLM jointly and have it output the symbol (e.g., ‘A’) associated with its chosen answer option. This approach allows the model to explicitly compare answer options, reduces computational costs, and mitigates the effects of tokenization scheme and answer option representations on answer selection. For the natural approach to be effective, the LLM it is used with must be able to associate answer options with the symbols that represent them. The LLM needs what we term multiple choice symbol binding (MCSB) ability. This ability varies greatly by model. We show that a model with high MCSB ability performs much better with the natural approach than with the traditional approach across 20 diverse datasets and largely closes the gap with the SOTA, suggesting that the MCQA ability of LLMs has been previously underestimated.

arxiv情報

著者 Joshua Robinson,Christopher Michael Rytting,David Wingate
発行日 2023-03-17 00:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク