要約
アダプターは、自然言語処理において広く普及しているパラメーター効率の高い転移学習アプローチであり、事前トレーニングされた言語モデルの層の間にトレーニング可能なモジュールを挿入します。
ただし、いくつかのヒューリスティックを除けば、ダウンストリーム アプリケーションに必要なアダプター パラメーターの最適な数を分析する研究は不足しています。
この論文では、トレーニング可能なモジュールの熱帯特性を研究することにより、アダプター プルーニング アプローチを提案します。
これを、基礎となる熱帯超曲面の方向を変更せずにアダプター層からパラメーターを取り除くことを目的とした最適化問題としてキャストします。
5 つの NLP データセットでの実験では、マグニチュードベースのベースラインと比較した場合、熱帯幾何学は、プルーニングすべきより関連性の高いパラメーターを特定する傾向があり、タスク全体にわたって組み合わせたアプローチが最適に機能することを示しています。
要約(オリジナル)
Adapters are widely popular parameter-efficient transfer learning approaches in natural language processing that insert trainable modules in between layers of a pre-trained language model. Apart from several heuristics, however, there has been a lack of studies analyzing the optimal number of adapter parameters needed for downstream applications. In this paper, we propose an adapter pruning approach by studying the tropical characteristics of trainable modules. We cast it as an optimization problem that aims to prune parameters from the adapter layers without changing the orientation of underlying tropical hypersurfaces. Our experiments on five NLP datasets show that tropical geometry tends to identify more relevant parameters to prune when compared with the magnitude-based baseline, while a combined approach works best across the tasks.
arxiv情報
著者 | Rishabh Bhardwaj,Tushar Vaidya,Soujanya Poria |
発行日 | 2023-10-30 02:20:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google