MuLER: Detailed and Scalable Reference-based Evaluation

要約

私たちは、機械翻訳 (MT) などのテキスト生成のためのリファレンスベースの評価指標を、きめ細かい分析ツールに変換する新しい方法論 (つまり、MuLER) を提案します。
システムとメトリクスを指定すると、MuLER は、選択したメトリクスが特定の種類のエラー (場所の名前の変換時のエラーなど) にどの程度ペナルティを与えるかを定量化します。
したがって、MuLER を使用すると詳細なエラー分析が可能になり、特定の現象に対する的を絞った改善作業につながる可能性があります。
私たちは、合成設定と自然主義設定の両方で実験を実行して、MuLER の有効性をサポートし、MT 評価や要約などのその他のタスクにおけるその有用性を示します。
2014 年から 2020 年にかけて WMT に提出されたすべての投稿を分析すると、一貫した傾向が見つかりました。
たとえば、名詞と動詞は、最も頻繁に使用される POS タグの 1 つです。
ただし、これらは翻訳が最も難しいものの一つです。
ほとんどの POS タグのパフォーマンスはシステム全体のパフォーマンスとともに向上しますが、いくつかの POS タグは相関性がありません (言語ごとに ID が変化します)。
要約を用いた予備実験でも同様の傾向が明らかになりました。

要約(オリジナル)

We propose a novel methodology (namely, MuLER) that transforms any reference-based evaluation metric for text generation, such as machine translation (MT) into a fine-grained analysis tool. Given a system and a metric, MuLER quantifies how much the chosen metric penalizes specific error types (e.g., errors in translating names of locations). MuLER thus enables a detailed error analysis which can lead to targeted improvement efforts for specific phenomena. We perform experiments in both synthetic and naturalistic settings to support MuLER’s validity and showcase its usability in MT evaluation, and other tasks, such as summarization. Analyzing all submissions to WMT in 2014-2020, we find consistent trends. For example, nouns and verbs are among the most frequent POS tags. However, they are among the hardest to translate. Performance on most POS tags improves with overall system performance, but a few are not thus correlated (their identity changes from language to language). Preliminary experiments with summarization reveal similar trends.

arxiv情報

著者 Taelin Karidi,Leshem Choshen,Gal Patel,Omri Abend
発行日 2023-11-29 10:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク