Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

要約

事実に関する質問は通常、さまざまな粒度レベルで正しく答えることができます。
たとえば、「バラク・オバマはいつ生まれましたか?」という質問に対する正解は、「1961 年 8 月 4 日」と「1961 年」の両方です。
ただし、標準的な質問応答 (QA) 評価プロトコルでは、これを明示的に考慮せず、予測された回答を単一の粒度レベルの回答と比較します。
この研究では、一連の多重粒度の回答に対して、予測された回答が精度と有益性の観点から評価される新しい評価設定である GRANOLA QA を提案します。
既存のデータセットを多粒度の回答で強化するための簡単な方法論を提示し、EntityQuestions データセットの多粒度バージョンである GRANOLA-EQ を作成します。
応答の粒度をモデルの不確実性と一致させることを目的とした、応答集約によるデコーディング (DRAG) と呼ばれる新しいアルゴリズムを含む、GRANOLA-EQ 上のさまざまなデコーディング方法を評価します。
私たちの実験では、標準的なデコードを使用した大規模な言語モデルは、多くの場合不正確である特定の答えを生成する傾向があることを示しています。
対照的に、複数粒度の回答で評価すると、DRAG は平均で 20 ポイント近く精度が向上し、希少なエンティティではさらに精度が向上します。
全体として、これは、標準の評価および復号スキームが LM にカプセル化された知識を大幅に過小評価している可能性があることを明らかにしています。

要約(オリジナル)

Factual questions typically can be answered correctly at different levels of granularity. For example, both “August 4, 1961” and “1961” are correct answers to the question “When was Barack Obama born?”. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model’s uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.

arxiv情報

著者 Gal Yona,Roee Aharoni,Mor Geva
発行日 2024-08-01 06:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク