Sequence Shortening for Context-Aware Machine Translation

要約

文脈を考慮した機械翻訳は、周囲の文を文脈として取り込むことで、文の翻訳を改善することを目的としている。このタスクに向けて、シングルエンコーダ(連結に基づく)とマルチエンコーダモデルという2つの主要なアーキテクチャが適用されてきた。本研究では、マルチエンコーダアーキテクチャの特殊なケースとして、原文の潜在的表現をキャッシュし、次のステップでコンテキストとして再利用することで、対照データセット(提供された文の中から正しい訳文をランク付けする必要がある)において、シングルエンコーダアプローチとマルチエンコーダアプローチと同等のBLEUスコアとCOMETスコアを達成し、より高い精度を達成することを示す。さらに、キャッシュされた表現へのシーケンス短縮の適用を調査する。我々は3つのプーリングベースの短縮手法をテストし、2つの新しい手法、潜在的グルーピングと潜在的選択を導入する。我々の実験によれば、この2つの手法は、対照的なデータセットにおいて、他のテストされた手法と遜色のないBLEUとCOMETのスコアと精度を達成し、同時に、より高い解釈可能性を可能にし、コンテキストサイズの増加に伴うメモリ要件の増加を低減する可能性がある。

要約(オリジナル)

Context-aware Machine Translation aims to improve translations of sentences by incorporating surrounding sentences as context. Towards this task, two main architectures have been applied, namely single-encoder (based on concatenation) and multi-encoder models. In this study, we show that a special case of multi-encoder architecture, where the latent representation of the source sentence is cached and reused as the context in the next step, achieves higher accuracy on the contrastive datasets (where the models have to rank the correct translation among the provided sentences) and comparable BLEU and COMET scores as the single- and multi-encoder approaches. Furthermore, we investigate the application of Sequence Shortening to the cached representations. We test three pooling-based shortening techniques and introduce two novel methods – Latent Grouping and Latent Selecting, where the network learns to group tokens or selects the tokens to be cached as context. Our experiments show that the two methods achieve competitive BLEU and COMET scores and accuracies on the contrastive datasets to the other tested methods while potentially allowing for higher interpretability and reducing the growth of memory requirements with increased context size.

arxiv情報

著者 Paweł Mąka,Yusuf Can Semerci,Jan Scholtes,Gerasimos Spanakis
発行日 2024-02-02 13:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク