Multi-Path Transformer is Better: A Case Study on Neural Machine Translation

要約

【タイトル】
多層トランスフォーマーが優れている:ニューラル機械翻訳におけるケーススタディ

【要約】
・機械学習において、モデルの性能は長年、モデルのサイズに対してべき乗関係を保ってきた。
・しかし、パラメータの効率性を考慮すると、最近の研究は、幅よりも深さを増やして性能を向上させることに注目している。
・本論文では、パラメータ効率の高いマルチパス構造を使って、トランスフォーマーモデルの幅がどのように影響するかを調べた。
・異なるパスから抽出された特徴をより良く融合するために、各サブレイヤーに3つの追加操作を加えた。それは、各パスの最後に正規化を追加すること、より多くの特徴を生成するための安価な操作を追加すること、柔軟にすべての特徴を融合するための学習可能な重み付きメカニズムを追加することである。
・12のWMT機械翻訳タスクでの広範な実験結果は、同じ数のパラメータを使用する場合、より浅いマルチパスモデルがより深いモデルと同様またはさらに優れた性能を発揮できることを示した。
・多層構造により特徴を柔軟に融合することによって、マルチパス構造により重点を置く必要があること、モデルの深さと幅の間にバランスを取ることによってより優れた大規模トランスフォーマーをトレーニングする必要があることが示された。

要約(オリジナル)

For years the model performance in machine learning obeyed a power-law relationship with the model size. For the consideration of parameter efficiency, recent studies focus on increasing model depth rather than width to achieve better performance. In this paper, we study how model width affects the Transformer model through a parameter-efficient multi-path structure. To better fuse features extracted from different paths, we add three additional operations to each sublayer: a normalization at the end of each path, a cheap operation to produce more features, and a learnable weighted mechanism to fuse all features flexibly. Extensive experiments on 12 WMT machine translation tasks show that, with the same number of parameters, the shallower multi-path model can achieve similar or even better performance than the deeper model. It reveals that we should pay more attention to the multi-path structure, and there should be a balance between the model depth and width to train a better large-scale Transformer.

arxiv情報

著者 Ye Lin,Shuhan Zhou,Yanyang Li,Anxiang Ma,Tong Xiao,Jingbo Zhu
発行日 2023-05-10 07:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク