Heterogeneous Encoders Scaling In The Transformer For Neural Machine Translation

要約

Transformer は現在、ニューラル機械翻訳の同種構成 (セルフアテンションのみ) で最もパフォーマンスの高いアーキテクチャですが、自然言語処理の多くの最先端モデルは、さまざまな深層学習アプローチの組み合わせで作られています。
ただし、これらのモデルは多くの場合、いくつかの手法の組み合わせのみに焦点を当てており、なぜ一部の手法が他の手法よりも選択されるのかは不明です。
この研究では、ますます多くの異種手法を統合することの有効性を調査します。
シンプルな組み合わせ戦略とパフォーマンス重視の相乗効果基準に基づいて、最大 5 つの多様なエンコーダーで構成されるマルチエンコーダー トランスフォーマーを設計しました。
結果は、私たちのアプローチがさまざまな言語やデータセットサイズにわたって翻訳の品質を向上させることができ、特に低リソース言語で効果的であることを示し、単一エンコーダーモデルと比較して最大 7.16 BLEU の増加が観察されました。

要約(オリジナル)

Although the Transformer is currently the best-performing architecture in the homogeneous configuration (self-attention only) in Neural Machine Translation, many State-of-the-Art models in Natural Language Processing are made of a combination of different Deep Learning approaches. However, these models often focus on combining a couple of techniques only and it is unclear why some methods are chosen over others. In this work, we investigate the effectiveness of integrating an increasing number of heterogeneous methods. Based on a simple combination strategy and performance-driven synergy criteria, we designed the Multi-Encoder Transformer, which consists of up to five diverse encoders. Results showcased that our approach can improve the quality of the translation across a variety of languages and dataset sizes and it is particularly effective in low-resource languages where we observed a maximum increase of 7.16 BLEU compared to the single-encoder model.

arxiv情報

著者 Jia Cheng Hu,Roberto Cavicchioli,Giulia Berardinelli,Alessandro Capotondi
発行日 2023-12-26 03:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク