Towards Explainable Evaluation Metrics for Machine Translation

要約

BLEU などの古典的な語彙重複メトリクスとは異なり、機械翻訳の最新の評価メトリクス (COMET や BERTScore など) は、ブラックボックスの大規模言語モデルに基づいています。
多くの場合、人間の判断と強い相関関係が得られますが、最近の研究では、低品質の古典的な指標が引き続き支配的であることが示されており、その潜在的な理由の 1 つは、意思決定プロセスがより透明であることです。
したがって、新しい高品質の指標がより広く受け入れられるようにするには、説明可能性が重要になります。
このコンセプト ペーパーでは、説明可能な機械翻訳メトリクスの主要な特性と主要な目標を特定し、最近の技術を包括的に統合して、それらを確立された目標と特性に関連付けます。
これに関連して、ChatGPT や GPT4 などの生成モデルに基づいた説明可能なメトリクスへの最新のアプローチについても説明します。
最後に、自然言語による説明を含む次世代アプローチのビジョンを提供します。
私たちは、私たちの研究が、説明可能な評価指標に関する将来の研究を促進し、導くのに役立ち、さらに、より優れた、より透明性の高い機械翻訳システムにも貢献できることを願っています。

要約(オリジナル)

Unlike classical lexical overlap metrics such as BLEU, most current evaluation metrics for machine translation (for example, COMET or BERTScore) are based on black-box large language models. They often achieve strong correlations with human judgments, but recent research indicates that the lower-quality classical metrics remain dominant, one of the potential reasons being that their decision processes are more transparent. To foster more widespread acceptance of novel high-quality metrics, explainability thus becomes crucial. In this concept paper, we identify key properties as well as key goals of explainable machine translation metrics and provide a comprehensive synthesis of recent techniques, relating them to our established goals and properties. In this context, we also discuss the latest state-of-the-art approaches to explainable metrics based on generative models such as ChatGPT and GPT4. Finally, we contribute a vision of next-generation approaches, including natural language explanations. We hope that our work can help catalyze and guide future research on explainable evaluation metrics and, mediately, also contribute to better and more transparent machine translation systems.

arxiv情報

著者 Christoph Leiter,Piyawat Lertvittayakumjorn,Marina Fomicheva,Wei Zhao,Yang Gao,Steffen Eger
発行日 2023-06-22 17:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク