要約
最近の研究で多大な努力を払って、LLM-As-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-reaseは、幅広いタスクでテキスト生成の品質を評価するための人間の評価に代わる代替手段になりました。
ただし、LLM-As-a-Judgeと人間の評価の間には、依然として信頼性のギャップが残っています。
重要な理由の1つは、評価プロセスにガイド付きオラクルがないことです。
古典的なテキスト評価で使用される参照の役割に動機付けられ、応答に適応した参照を介して新しいテキスト生成評価パラダイムであるRevisevalを紹介します。
Revisevalは、理想的な参照が評価される応答と必要な関連性を維持する必要があるという重要な観察によって推進されています。
具体的には、Revisevalは、大規模な言語モデル(LLM)のテキスト改訂機能を活用して、応答を適応的に修正し、その後の評価のために改訂されたテキストを参照(応答適用参照)として扱います。
広範な実験は、Revisevalが、NLGタスクと自由回答形式の命令に従うタスク全体でLLM-A-A-Judgeを使用する従来の参照ベースの評価パラダイムよりも優れていることを示しています。
さらに重要なことは、私たちの応答に適応した参照は、従来の参照と比較して、ブルーやバートスコアなどの古典的なテキストメトリックをさらに高めることができ、LLM-as-a-judgeに匹敵することです。
また、バイアス削減、推論コストの影響、および参照関連性における改訂版の有効性を確認するために、詳細な分析も実施されます。
要約(オリジナル)
With significant efforts in recent studies, LLM-as-a-Judge has become a cost-effective alternative to human evaluation for assessing text generation quality in a wide range of tasks. However, there still remains a reliability gap between LLM-as-a-Judge and human evaluation. One important reason is the lack of guided oracles in the evaluation process. Motivated by the role of reference pervasively used in classic text evaluation, we introduce RevisEval, a novel text generation evaluation paradigm via the response-adapted references. RevisEval is driven by the key observation that an ideal reference should maintain the necessary relevance to the response to be evaluated. Specifically, RevisEval leverages the text revision capabilities of large language models (LLMs) to adaptively revise the response, then treat the revised text as the reference (response-adapted reference) for the subsequent evaluation. Extensive experiments demonstrate that RevisEval outperforms traditional reference-free and reference-based evaluation paradigms that use LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks. More importantly, our response-adapted references can further boost the classical text metrics, e.g., BLEU and BERTScore, compared to traditional references and even rival the LLM-as-a-Judge. A detailed analysis is also conducted to confirm RevisEval’s effectiveness in bias reduction, the impact of inference cost, and reference relevance.
arxiv情報
著者 | Qiyuan Zhang,Yufei Wang,Tiezheng YU,Yuxin Jiang,Chuhan Wu,Liangyou Li,Yasheng Wang,Xin Jiang,Lifeng Shang,Ruiming Tang,Fuyuan Lyu,Chen Ma |
発行日 | 2025-04-07 14:42:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google