要約
文書レベルの翻訳モデルは、通常、BLEUのような一般的な評価基準を用いて評価されるが、この評価基準は、文脈の利点に関する情報を提供しない。コントラスト法などのコンテキストを考慮した評価に関する現在の研究は、曖昧性解消のためにコンテキストが必要な単語の翻訳精度を測定するだけです。このような測定では、翻訳モデルが正しいサポートコンテキストを使用しているかどうかを明らかにすることはできません。われわれは、文脈の利用度を測定することで、正確さに基づく評価を補完することを提案する。我々は、摂動ベースの分析(正しい文脈とランダムな文脈が与えられたときのモデルのパフォーマンスを比較する)が、全体的な文脈利用の効果的な尺度であることを発見した。よりきめ細かな現象固有の評価のために、文脈依存の談話現象の処理に支援文脈がどれだけ寄与しているかを測定することを提案する。我々は、自動的に注釈されたサポートコンテキストは、人間が注釈したコンテキストと同様の結論を与え、人間の注釈が利用できない場合の代替手段として使用できることを示す。最後に、コンテキストの利用を評価する際に、談話が豊富なデータセットを使用することの重要性を強調する。
要約(オリジナル)
Document-level translation models are usually evaluated using general metrics such as BLEU, which are not informative about the benefits of context. Current work on context-aware evaluation, such as contrastive methods, only measure translation accuracy on words that need context for disambiguation. Such measures cannot reveal whether the translation model uses the correct supporting context. We propose to complement accuracy-based evaluation with measures of context utilization. We find that perturbation-based analysis (comparing models’ performance when provided with correct versus random context) is an effective measure of overall context utilization. For a finer-grained phenomenon-specific evaluation, we propose to measure how much the supporting context contributes to handling context-dependent discourse phenomena. We show that automatically-annotated supporting context gives similar conclusions to human-annotated context and can be used as alternative for cases where human annotations are not available. Finally, we highlight the importance of using discourse-rich datasets when assessing context utilization.
arxiv情報
| 著者 | Wafaa Mohammed,Vlad Niculae | 
| 発行日 | 2024-02-02 13:37:07+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
