要約
非ファクトイド (NF) 質問応答 (QA) は、潜在的な回答が多様であり、客観的な基準がないため、評価が困難です。
ROUGE や BERTScore などの一般的に使用される自動評価指標では、意味の類似性やさまざまな観点からの回答を正確に測定できません。
最近、さまざまな NLP タスクで魅力的なパフォーマンスを発揮するため、NFQA 評価に大規模言語モデル (LLM) が利用されています。
一般的なアプローチには、各回答候補のポイントごとのスコアリングと、回答間のペアごとの比較が含まれます。
ランク付け学習法におけるポイントワイズからペアワイズ、リストワイズへの進化に触発され、LLM を利用して品質の降順でソートされた参照回答リスト内の候補回答をランク付けする、新しいリストワイズ NFQA 評価アプローチを提案します。
さらに、マルチグレード回答やゴールデン回答がない NF 質問については、LLM を活用してさまざまな品質の参照回答リストを生成し、リストごとの評価を容易にします。
3 つの NFQA データセット、つまり ANTIQUE、TREC-DL-NF、および WebGLM に関する広範な実験結果は、私たちの方法が自動スコアや一般的なポイントごとおよびペアごとのアプローチと比較して、人間によるアノテーションとの相関が大幅に高いことを示しています。
要約(オリジナル)
Non-Factoid (NF) Question Answering (QA) is challenging to evaluate due to diverse potential answers and no objective criterion. The commonly used automatic evaluation metrics like ROUGE or BERTScore cannot accurately measure semantic similarities or answers from different perspectives. Recently, Large Language Models (LLMs) have been resorted to for NFQA evaluation due to their compelling performance on various NLP tasks. Common approaches include pointwise scoring of each candidate answer and pairwise comparisons between answers. Inspired by the evolution from pointwise to pairwise to listwise in learning-to-rank methods, we propose a novel listwise NFQA evaluation approach, that utilizes LLMs to rank candidate answers in a list of reference answers sorted by descending quality. Moreover, for NF questions that do not have multi-grade or any golden answers, we leverage LLMs to generate the reference answer list of various quality to facilitate the listwise evaluation. Extensive experimental results on three NFQA datasets, i.e., ANTIQUE, the TREC-DL-NF, and WebGLM show that our method has significantly higher correlations with human annotations compared to automatic scores and common pointwise and pairwise approaches.
arxiv情報
著者 | Sihui Yang,Keping Bi,Wanqing Cui,Jiafeng Guo,Xueqi Cheng |
発行日 | 2024-09-30 15:36:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google