Addressing the Length Bias Problem in Document-Level Neural Machine Translation

要約

ドキュメントレベルのニューラル機械翻訳 (DNMT) は、より多くのコンテキスト情報を組み込むことで有望な結果を示しています。
ただし、このアプローチでは長さのバイアスの問題も発生します。この問題により、トレーニング中に最大シーケンス長よりもはるかに短いまたは長いドキュメントをデコードするときに、DNMT は翻訳品質が大幅に低下します。
%つまり、長さの偏りの問題です。
長さのバイアスの問題を解決するために、トレーニング方法、注意メカニズム、およびデコード戦略において DNMT モデルを改善することを提案します。
まず、異なるシーケンス長全体でより均一な分布を確保するために、トレーニング データを動的にサンプリングすることを提案します。
次に、モデルがターゲット情報に焦点を合わせるのを支援するために、長さ正規化された注意メカニズムを導入し、より長いシーケンスを処理する際の注意の発散の問題を軽減します。
最後に、最大シーケンス長を超えずにできるだけ多くのコンテキスト情報を統合する、復号化中のスライディング ウィンドウ戦略を提案します。
実験結果は、私たちの方法がいくつかのオープンデータセットに大幅な改善をもたらすことができることを示しており、さらなる分析により、私たちの方法が長さの偏りの問題を大幅に軽減できることが示されています。

要約(オリジナル)

Document-level neural machine translation (DNMT) has shown promising results by incorporating more context information. However, this approach also introduces a length bias problem, whereby DNMT suffers from significant translation quality degradation when decoding documents that are much shorter or longer than the maximum sequence length during training. %i.e., the length bias problem. To solve the length bias problem, we propose to improve the DNMT model in training method, attention mechanism, and decoding strategy. Firstly, we propose to sample the training data dynamically to ensure a more uniform distribution across different sequence lengths. Then, we introduce a length-normalized attention mechanism to aid the model in focusing on target information, mitigating the issue of attention divergence when processing longer sequences. Lastly, we propose a sliding window strategy during decoding that integrates as much context information as possible without exceeding the maximum sequence length. The experimental results indicate that our method can bring significant improvements on several open datasets, and further analysis shows that our method can significantly alleviate the length bias problem.

arxiv情報

著者 Zhuocheng Zhang,Shuhao Gu,Min Zhang,Yang Feng
発行日 2023-11-20 08:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク