要約
質問応答 (QA) は、答えが正しいかどうかがわかっている場合にのみ進歩します。しかし、最も挑戦的で興味深い QA の例の多くでは、答えの同等性 (AE) を判断するための現在の評価指標が人間の判断と一致していないことがよくあります。
大規模言語モデル (LLM) からの冗長な自由形式の回答。
データ不足とモデルが大きすぎるという 2 つの課題があります。LLM ベースのスコアラーは人間の審査員とより適切に相関できますが、このタスクは限られた QA データセットでのみテストされており、利用可能な場合でもモデルの更新は制限されています。
LLM は大きく、多くの場合高価であるためです。
私たちは、プロの人間による QA コンテストから採用されたマシン QA の AE を評価するための明確で一貫したガイドラインを提供することで、これらの問題の両方を修正します。
また、標準評価と、より効率的で堅牢かつ軽量の判別 AE 分類子ベースのマッチング手法 (CFMatch、1 MB 未満) の組み合わせも導入します。この手法は、採用されたエキスパート AE ルールに従って、回答の正しさをより正確に評価するためにトレーニングおよび検証されています。
人間の判断とより一致しています。
要約(オリジナル)
Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current evaluation metrics to determine answer equivalence (AE) often do not align with human judgments, particularly more verbose, free-form answers from large language models (LLM). There are two challenges: a lack of data and that models are too big: LLM-based scorers can correlate better with human judges, but this task has only been tested on limited QA datasets, and even when available, update of the model is limited because LLMs are large and often expensive. We rectify both of these issues by providing clear and consistent guidelines for evaluating AE in machine QA adopted from professional human QA contests. We also introduce a combination of standard evaluation and a more efficient, robust, and lightweight discriminate AE classifier-based matching method (CFMatch, smaller than 1 MB), trained and validated to more accurately evaluate answer correctness in accordance with adopted expert AE rules that are more aligned with human judgments.
arxiv情報
| 著者 | Zongxia Li,Ishani Mondal,Yijun Liang,Huy Nghiem,Jordan Boyd-Graber | 
| 発行日 | 2024-01-24 01:30:25+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
