Attention Is All You Need

要約

ドミナント シーケンス変換モデルは、エンコーダ/デコーダ構成の複雑なリカレント ニューラル ネットワークまたは畳み込みニューラル ネットワークに基づいています。
最高のパフォーマンスのモデルは、アテンション メカニズムを通じてエンコーダーとデコーダーも接続します。
私たちは、再帰と畳み込みを完全に省き、アテンション メカニズムのみに基づいた、新しいシンプルなネットワーク アーキテクチャである Transformer を提案します。
2 つの機械翻訳タスクの実験では、これらのモデルは品質が優れていると同時に、より並列化可能であり、トレーニングに必要な時間が大幅に短縮されることが示されています。
私たちのモデルは、WMT 2014 の英語からドイツ語への翻訳タスクで 28.4 BLEU を達成し、アンサンブルを含む既存の最高の結果を 2 BLEU 以上改善しました。
WMT 2014 の英語からフランス語への翻訳タスクでは、私たちのモデルは、8 つの GPU で 3.5 日間トレーニングした後、新しい単一モデルの最先端の BLEU スコア 41.8 を確立しました。これは、最高のトレーニング コストのほんの一部です。
文献からのモデル。
Transformer は、大規模かつ限られたトレーニング データの両方を使用した英国の選挙区解析にうまく適用することで、他のタスクにもうまく一般化できることを示します。

要約(オリジナル)

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.

arxiv情報

著者 Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez,Lukasz Kaiser,Illia Polosukhin
発行日 2023-08-02 00:41:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク