要約
ドキュメント レベルのニューラル機械翻訳の既存の作業では、通常、いくつかの連続する文を疑似ドキュメントとして連結し、文間の依存関係を学習します。
この戦略は、離れたコンテキストからの情報を活用するモデルの能力を制限します。
フラットバッチ アテンション (FBA) とニューラル コンテキスト ゲート (NCG) を Transformer モデルに統合して疑似ドキュメントの境界を越えて情報を利用する新しいドキュメント フラットニング (DocFlat) 手法でこの制限を克服します。
FBA を使用すると、モデルはバッチ内のすべての位置に対応し、位置間の関係を明示的に学習できます。NCG は、離れたコンテキストから有用な情報を識別します。
英独翻訳の 3 つのベンチマーク データセットで包括的な実験と分析を行い、DocFlat の 2 つのバリアントの有効性を検証します。
実験結果は、私たちのアプローチが強力なベースラインよりも優れており、BLEU、COMET で統計的有意性があり、対照的なテスト セットで精度が高いことを示しています。
分析は、DocFlat が長期的な情報を取得するのに非常に効果的であることを強調しています。
要約(オリジナル)
Existing work in document-level neural machine translation commonly concatenates several consecutive sentences as a pseudo-document, and then learns inter-sentential dependencies. This strategy limits the model’s ability to leverage information from distant context. We overcome this limitation with a novel Document Flattening (DocFlat) technique that integrates Flat-Batch Attention (FBA) and Neural Context Gate (NCG) into Transformer model to utilize information beyond the pseudo-document boundaries. FBA allows the model to attend to all the positions in the batch and learns the relationships between positions explicitly and NCG identifies the useful information from the distant context. We conduct comprehensive experiments and analyses on three benchmark datasets for English-German translation, and validate the effectiveness of two variants of DocFlat. Empirical results show that our approach outperforms strong baselines with statistical significance on BLEU, COMET and accuracy on the contrastive test set. The analyses highlight that DocFlat is highly effective in capturing the long-range information.
arxiv情報
著者 | Minghao Wu,George Foster,Lizhen Qu,Gholamreza Haffari |
発行日 | 2023-02-16 04:38:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google