Dynamic Layer Tying for Parameter-Efficient Transformers

要約

ディープトランスフォーマーネットワークでトレーニング可能なパラメータの数を減らすことを追求するため、強化学習を使用してトレーニング中に層を動的に選択し、それらを結合します。
数回の反復ごとに、RL エージェントは各層 $i$ を独立してトレーニングするか、前の層 $j要約(オリジナル)

In the pursuit of reducing the number of trainable parameters in deep transformer networks, we employ Reinforcement Learning to dynamically select layers during training and tie them together. Every few iterations, the RL agent is asked whether to train each layer $i$ independently or to copy the weights of a previous layer $jarxiv情報

著者 Tamir David Hay,Lior Wolf
発行日 2024-01-23 14:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク