要約
マルチスケールの Transformer モデルの学習は、機械翻訳システムを強化するための実行可能なアプローチであることが証明されています。
これまでの研究は主に、このようなシステムを開発する際の基本単位としてサブワードを扱うことに焦点を当ててきました。
ただし、きめの細かいキャラクターレベルの機能をマルチスケールの Transformer に組み込むことはまだ検討されていません。
この研究では、サブワードを処理するために「遅い」分岐を利用する、Tran\textbf{SF}ormer と呼ばれる \textbf{S}low-\textbf{F}ast 2 ストリーム学習モデルを紹介します。
シーケンスと、より長い文字シーケンスを処理するための「高速」分岐。
このモデルは、高速ブランチがモデル幅を減らすことで非常に軽量であると同時に、低速ブランチに便利なきめ細かい機能を提供するため効率的です。
当社の TranSFormer は、いくつかの機械翻訳ベンチマークで一貫した BLEU の改善 (1 BLEU ポイントを超える) を示しています。
要約(オリジナル)
Learning multiscale Transformer models has been evidenced as a viable approach to augmenting machine translation systems. Prior research has primarily focused on treating subwords as basic units in developing such systems. However, the incorporation of fine-grained character-level features into multiscale Transformer has not yet been explored. In this work, we present a \textbf{S}low-\textbf{F}ast two-stream learning model, referred to as Tran\textbf{SF}ormer, which utilizes a “slow” branch to deal with subword sequences and a “fast” branch to deal with longer character sequences. This model is efficient since the fast branch is very lightweight by reducing the model width, and yet provides useful fine-grained features for the slow branch. Our TranSFormer shows consistent BLEU improvements (larger than 1 BLEU point) on several machine translation benchmarks.
arxiv情報
著者 | Bei Li,Yi Jing,Xu Tan,Zhen Xing,Tong Xiao,Jingbo Zhu |
発行日 | 2023-05-26 14:37:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google