Contextual Metric Meta-Evaluation by Measuring Local Metric Accuracy

要約

自動評価メトリックのメタ評価 – 評価メトリック自体の評価 – は、自然言語処理システムを正確にベンチマークするために重要であり、科学的調査、生産モデル開発、および政策施行に影響を与えます。
メトリックメタ評価への既存のアプローチは、任意のシステム出力全体のメトリックの絶対的および相対的な品質に関する一般的なステートメントに焦点を当てていますが、実際には、メトリックは非常にコンテキスト設定で適用され、多くの場合、システム出力の高度に制約されているセットのパフォーマンスを測定します。
たとえば、特定のモデルまたはクラスのモデルの評価にのみ関心がある場合があります。
評価メトリックのローカルメトリック精度を比較することにより、コンテキストメトリックメタ評価の方法を紹介します。
翻訳、音声認識、ランキングタスク全体で、評価のコンテキスト全体にシフトする際に、ローカルメトリックの精度は絶対値と相対的な有効性の両方が異なることを実証します。
この観察された変動は、グローバルなものよりもコンテキスト固有のメトリック評価を採用することの重要性を強調しています。

要約(オリジナル)

Meta-evaluation of automatic evaluation metrics — assessing evaluation metrics themselves — is crucial for accurately benchmarking natural language processing systems and has implications for scientific inquiry, production model development, and policy enforcement. While existing approaches to metric meta-evaluation focus on general statements about the absolute and relative quality of metrics across arbitrary system outputs, in practice, metrics are applied in highly contextual settings, often measuring the performance for a highly constrained set of system outputs. For example, we may only be interested in evaluating a specific model or class of models. We introduce a method for contextual metric meta-evaluation by comparing the local metric accuracy of evaluation metrics. Across translation, speech recognition, and ranking tasks, we demonstrate that the local metric accuracies vary both in absolute value and relative effectiveness as we shift across evaluation contexts. This observed variation highlights the importance of adopting context-specific metric evaluations over global ones.

arxiv情報

著者 Athiya Deviyani,Fernando Diaz
発行日 2025-03-25 16:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク