Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering

要約

レトリバー拡張命令追従モデルは、質問応答 (QA) などの情報探索タスクに対する微調整されたアプローチに代わる魅力的な代替手段です。
取得したドキュメントを命令とともに入力の先頭に追加するだけで、これらのモデルを追加の微調整なしでさまざまな情報ドメインやタスクに適応させることができます。
モデルの応答は自然で流暢である傾向がありますが、冗長性が増すため、完全一致 (EM) や F1 などの従来の QA 評価指標は、モデルのパフォーマンスを正確に定量化する上で信頼できなくなります。
この研究では、情報を求める 3 つの QA タスクにわたる指示従うモデルのパフォーマンスを調査します。
私たちは自動評価と人間による評価の両方を使用して、これらのモデルを 1) ユーザーの情報ニーズをどの程度満たすか (正確性)、2) 提供された知識に基づいて応答を生成するかどうか (忠実性) の 2 つの側面に沿って評価します。
人間による評価と分析に基づいて、正確さと忠実さの両方に関する従来の指標の欠点を強調します。
次に、これらのモデルの真のパフォーマンスを反映する、単純なトークン オーバーラップ ベースおよびモデル ベースのメトリクスを提案します。
私たちの分析により、指示に従うモデルは競争力があり、正確さに関しては微調整されたモデルよりも優れていることさえあることが明らかになりました。
しかし、これらのモデルは提供された知識を忠実に守るのが難しく、反応の中で幻覚を起こすことがよくあります。
私たちの取り組みが、QA の指示に従うモデルのより総合的な評価を促進することを願っています。
コードとデータは https://github.com/McGill-NLP/instruct-qa で入手できます。

要約(オリジナル)

Retriever-augmented instruction-following models are attractive alternatives to fine-tuned approaches for information-seeking tasks such as question answering (QA). By simply prepending retrieved documents in its input along with an instruction, these models can be adapted to various information domains and tasks without additional fine-tuning. While the model responses tend to be natural and fluent, the additional verbosity makes traditional QA evaluation metrics such as exact match (EM) and F1 unreliable for accurately quantifying model performance. In this work, we investigate the performance of instruction-following models across three information-seeking QA tasks. We use both automatic and human evaluation to evaluate these models along two dimensions: 1) how well they satisfy the user’s information need (correctness), and 2) whether they produce a response based on the provided knowledge (faithfulness). Guided by human evaluation and analysis, we highlight the shortcomings of traditional metrics for both correctness and faithfulness. We then propose simple token-overlap based and model-based metrics that reflect the true performance of these models. Our analysis reveals that instruction-following models are competitive, and sometimes even outperform fine-tuned models for correctness. However, these models struggle to stick to the provided knowledge and often hallucinate in their responses. We hope our work encourages a more holistic evaluation of instruction-following models for QA. Our code and data is available at https://github.com/McGill-NLP/instruct-qa

arxiv情報

著者 Vaibhav Adlakha,Parishad BehnamGhader,Xing Han Lu,Nicholas Meade,Siva Reddy
発行日 2024-04-17 17:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク