要約
文法エラー補正(GEC)における自動評価メトリックの目標の1つは、GECシステムをランク付けして、人間の好みに合うようにすることです。
ただし、現在の自動評価は、人間の評価から分岐する手順に基づいています。
具体的には、人間の評価は、レーティングアルゴリズムを使用して、文レベルの相対評価結果、たとえばペアワイズ比較を集約することによりランキングを導き出しますが、自動評価では、文レベルの絶対スコアを平均して、ランキングを決定するために並べ替えます。
この研究では、このギャップを埋めるために人間の評価方法と一致する既存の自動評価メトリックの集約方法を提案します。
編集ベースのメトリック、$ n $グラムベースのメトリック、文レベルのメトリックなど、さまざまなメトリックを使用して実験を行い、ギャップを解決することで、Seedaベンチマークのほとんどのメトリックの結果が改善されることを示しています。
また、BERTベースのメトリックでさえ、GPT-4のメトリックを上回ることがあることがわかりました。
メトリックとメタ評価の統一された実装を公開します。
要約(オリジナル)
One of the goals of automatic evaluation metrics in grammatical error correction (GEC) is to rank GEC systems such that it matches human preferences. However, current automatic evaluations are based on procedures that diverge from human evaluation. Specifically, human evaluation derives rankings by aggregating sentence-level relative evaluation results, e.g., pairwise comparisons, using a rating algorithm, whereas automatic evaluation averages sentence-level absolute scores to obtain corpus-level scores, which are then sorted to determine rankings. In this study, we propose an aggregation method for existing automatic evaluation metrics which aligns with human evaluation methods to bridge this gap. We conducted experiments using various metrics, including edit-based metrics, $n$-gram based metrics, and sentence-level metrics, and show that resolving the gap improves results for the most of metrics on the SEEDA benchmark. We also found that even BERT-based metrics sometimes outperform the metrics of GPT-4. We publish our unified implementation of the metrics and meta-evaluations.
arxiv情報
著者 | Takumi Goto,Yusuke Sakai,Taro Watanabe |
発行日 | 2025-02-13 15:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google