要約
複数のタスクに合わせて事前トレーニングされた言語モデルを微調整すると、ストレージの面でコストがかかる傾向があります。
これを軽減するために、パラメータ効率の高い転移学習 (PETL) 手法がこの問題に対処するために提案されていますが、より広範囲のタスクに適用する場合、依然としてかなりの数のパラメータとストレージが必要です。
さらに大きなストレージ削減を達成するために、私たちは、プロトタイプ ネットワーク (アダプター、LoRA、プレフィックス チューニングなど) と呼ばれる単一の PETL モジュールをレイヤーやタスク全体で効率的に共有できる新しい方法である PROPETL を提案します。
次に、バイナリ マスクを学習して、共有プロトタイプ ネットワークからさまざまなサブネットワークを選択し、それらを PETL モジュールとしてさまざまなレイヤーに適用します。
私たちは、バイナリマスクがネットワークからの重要な情報を特定できることを発見しましたが、これは以前の研究では無視されることが多かったです。
私たちの研究は、一種の枝刈り手法とみなすこともできます。この場合、一見小さな PETL モジュールにも過剰パラメータ化が存在することがわかります。
私たちは、さまざまな下流タスクで PROPETL を評価し、他の PETL メソッドが必要とするパラメーター ストレージの約 10% で他の PETL メソッドよりも優れたパフォーマンスを発揮できることを示しました。
要約(オリジナル)
Fine-tuning pre-trained language models for multiple tasks tends to be expensive in terms of storage. To mitigate this, parameter-efficient transfer learning (PETL) methods have been proposed to address this issue, but they still require a significant number of parameters and storage when being applied to broader ranges of tasks. To achieve even greater storage reduction, we propose PROPETL, a novel method that enables efficient sharing of a single PETL module which we call prototype network (e.g., adapter, LoRA, and prefix-tuning) across layers and tasks. We then learn binary masks to select different sub-networks from the shared prototype network and apply them as PETL modules into different layers. We find that the binary masks can determine crucial information from the network, which is often ignored in previous studies. Our work can also be seen as a type of pruning method, where we find that overparameterization also exists in the seemingly small PETL modules. We evaluate PROPETL on various downstream tasks and show that it can outperform other PETL methods with approximately 10% of the parameter storage required by the latter.
arxiv情報
著者 | Guangtao Zeng,Peiyuan Zhang,Wei Lu |
発行日 | 2023-06-12 02:44:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google