Investigating Length Issues in Document-level Machine Translation

要約

トランスアーキテクチャは、非常に長いテキストの処理と生成にますます効果的になり、ドキュメントレベルの機械翻訳(MT)の新しい視点を開きます。
この作業では、MTシステムが最大数千のトークンを含むテキストを処理する能力に挑戦します。
MT出力に対する長さの増分の効果を正確に測定するように設計された新しいアプローチを設計および実装します。
2つの代表的なアーキテクチャを使用した実験は、(a)〜翻訳のパフォーマンスが入力テキストの長さとともに減少することを明確に示しています。
(b)〜ドキュメント内の文の位置が重要であり、翻訳の品質は文書の前半で発生した文でより高くなります。
さらに、ドキュメントの長さと位置埋め込みの分布を操作することは、そのような問題をわずかに軽減するだけであることを示します。
我々の結果は、ドキュメントレベルのMTが計算可能に実行可能であるにもかかわらず、文ベースのMTのパフォーマンスとまだ一致していないことを示唆しています。

要約(オリジナル)

Transformer architectures are increasingly effective at processing and generating very long chunks of texts, opening new perspectives for document-level machine translation (MT). In this work, we challenge the ability of MT systems to handle texts comprising up to several thousands of tokens. We design and implement a new approach designed to precisely measure the effect of length increments on MT outputs. Our experiments with two representative architectures unambiguously show that (a)~translation performance decreases with the length of the input text; (b)~the position of sentences within the document matters, and translation quality is higher for sentences occurring earlier in a document. We further show that manipulating the distribution of document lengths and of positional embeddings only marginally mitigates such problems. Our results suggest that even though document-level MT is computationally feasible, it does not yet match the performance of sentence-based MT.

arxiv情報

著者 Ziqian Peng,Rachel Bawden,François Yvon
発行日 2025-04-28 13:52:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク