Lessons on Parameter Sharing across Layers in Transformers

要約

我々はTransformersのパラメータ共有手法を提案する(Vaswani et al., 2017).提案手法は,Universal Transformers (Dehghani et al., 2019) のような1つのレイヤーのパラメーターを全てのレイヤーと共有する,広く用いられている手法を緩和し,計算時間の効率化を図る.我々は3つの戦略を提案する.Sequence、Cycle、Cycle (rev)で各レイヤーにパラメータを割り当てる。実験結果は、提案されたストラテジーがパラメータサイズと計算時間において効率的であることを示す。さらに、提案した戦略は、最近のWMT競争のような多くの訓練データを使用する構成においても有効であることを示す。

要約(オリジナル)

We propose a parameter sharing method for Transformers (Vaswani et al., 2017). The proposed approach relaxes a widely used technique, which shares parameters for one layer with all layers such as Universal Transformers (Dehghani et al., 2019), to increase the efficiency in the computational time. We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign parameters to each layer. Experimental results show that the proposed strategies are efficient in the parameter size and computational time. Moreover, we indicate that the proposed strategies are also effective in the configuration where we use many training data such as the recent WMT competition.

arxiv情報

著者 Sho Takase,Shun Kiyono
発行日 2023-06-02 11:10:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク