Evaluating Open-QA Evaluation

要約

この研究は、大規模言語モデル (LLM) の事実性を直接推定できる公開質問応答 (Open-QA) タスクの評価に焦点を当てています。
現在の自動評価方法には限界があり、人間による評価が依然として最も信頼できるアプローチであることを示しています。
新しいタスクである QA 評価の評価 (QA-Eval) と、対応するデータセット EVOUNA を導入します。これは、Open-QA 内の標準回答と比較して AI が生成した回答の精度を評価するように設計されています。
これらの手法の評価では、人間が注釈を付けた結果を利用してそのパフォーマンスを測定します。
具体的には、人間の評価と高い相関を示し、より信頼性が高いと考えられる手法を調査します。
また、現在の方法の落とし穴と、LLM ベースの評価を改善する方法についても説明します。
私たちは、この新しい QA-Eval タスクと対応するデータセット EVOUNA が、より効果的な自動評価ツールの開発を促進し、この分野の将来の研究にとって価値があることが証明されると信じています。
すべてのリソースは \url{https://github.com/wangcunxiang/QA-Eval} で入手でき、Apache-2.0 ライセンスの下にあります。

要約(オリジナル)

This study focuses on the evaluation of the Open Question Answering (Open-QA) task, which can directly estimate the factuality of large language models (LLMs). Current automatic evaluation methods have shown limitations, indicating that human evaluation still remains the most reliable approach. We introduce a new task, Evaluating QA Evaluation (QA-Eval) and the corresponding dataset EVOUNA, designed to assess the accuracy of AI-generated answers in relation to standard answers within Open-QA. Our evaluation of these methods utilizes human-annotated results to measure their performance. Specifically, the work investigates methods that show high correlation with human evaluations, deeming them more reliable. We also discuss the pitfalls of current methods and methods to improve LLM-based evaluators. We believe this new QA-Eval task and corresponding dataset EVOUNA will facilitate the development of more effective automatic evaluation tools and prove valuable for future research in this area. All resources are available at \url{https://github.com/wangcunxiang/QA-Eval} and it is under the Apache-2.0 License.

arxiv情報

著者 Cunxiang Wang,Sirui Cheng,Qipeng Guo,Yuanhao Yue,Bowen Ding,Zhikun Xu,Yidong Wang,Xiangkun Hu,Zheng Zhang,Yue Zhang
発行日 2023-10-23 14:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク