A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability

要約

NLGメタ評価では、評価メトリックは通常、人間との一貫性に基づいて評価されます。
ただし、人間の評価の処理における問題や、メタ評価の有効性を損なう相関測定の曖昧な選択など、従来のNLGメタ評価アプローチのいくつかの制限を特定します。
この作業では、さまざまな評価能力に焦点を当てたデュアルパースのNLGメタ評価フレームワークを提案し、それによってより良い解釈可能性を提供します。
さらに、新しい人間の注釈を必要とせずに、対応するベンチマークを自動的に構築する方法を導入します。
さらに、提案されたフレームワークに基づいて評価者として16人の代表LLMを使用して実験を行い、異なる観点から評価パフォーマンスを包括的に分析します。

要約(オリジナル)

In NLG meta-evaluation, evaluation metrics are typically assessed based on their consistency with humans. However, we identify some limitations in traditional NLG meta-evaluation approaches, such as issues in handling human ratings and ambiguous selections of correlation measures, which undermine the effectiveness of meta-evaluation. In this work, we propose a dual-perspective NLG meta-evaluation framework that focuses on different evaluation capabilities, thereby providing better interpretability. In addition, we introduce a method of automatically constructing the corresponding benchmarks without requiring new human annotations. Furthermore, we conduct experiments with 16 representative LLMs as the evaluators based on our proposed framework, comprehensively analyzing their evaluation performance from different perspectives.

arxiv情報

著者 Xinyu Hu,Mingqi Gao,Li Lin,Zhenghan Yu,Xiaojun Wan
発行日 2025-02-17 17:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク