Towards Multiple References Era — Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation

要約

BLEU や chrF などの N グラム マッチング ベースの評価メトリクスは、さまざまな自然言語生成 (NLG) タスクにわたって広く利用されています。
ただし、最近の研究では、特に BLEURT のようなニューラル ベースのメトリクスと比較した場合、これらのマッチング ベースのメトリクスと人間の評価との間に弱い相関関係があることが明らかになりました。
この論文では、マッチングベースのメトリクスにおけるパフォーマンスのボトルネックは、参照の多様性が限られていることが原因である可能性があると推測しています。
この問題に対処するために、\textit{複数の参照} を利用して、これらの指標と人間の評価の間の一貫性を高めることを提案します。
WMT メトリック ベンチマーク内では、複数参照の F200spBLEU が従来の単一参照のものを 7.2\% の精度向上で上回っていることがわかります。
注目すべきことに、ニューラルベースの BERT スコアも 3.9\% の精度向上で上回っています。
さらに、大規模言語モデル (LLM) におけるデータ漏洩の問題は、複数参照メトリックによって大幅に軽減できることがわかりました。
コードとデータは \url{https://github.com/SefaZeng/LLM-Ref} でリリースされています。

要約(オリジナル)

N-gram matching-based evaluation metrics, such as BLEU and chrF, are widely utilized across a range of natural language generation (NLG) tasks. However, recent studies have revealed a weak correlation between these matching-based metrics and human evaluations, especially when compared with neural-based metrics like BLEURT. In this paper, we conjecture that the performance bottleneck in matching-based metrics may be caused by the limited diversity of references. To address this issue, we propose to utilize \textit{multiple references} to enhance the consistency between these metrics and human evaluations. Within the WMT Metrics benchmarks, we observe that the multi-references F200spBLEU surpasses the conventional single-reference one by an accuracy improvement of 7.2\%. Remarkably, it also exceeds the neural-based BERTscore by an accuracy enhancement of 3.9\%. Moreover, we observe that the data leakage issue in large language models (LLMs) can be mitigated to a large extent by our multi-reference metric. We release the code and data at \url{https://github.com/SefaZeng/LLM-Ref}

arxiv情報

著者 Xianfeng Zeng,Yijin Liu,Fandong Meng,Jie Zhou
発行日 2023-08-08 02:01:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク