要約
大規模な事前トレーニング済みの基礎モデルに基づくパラメーター効率の高い転移学習 (PETL) は、さまざまなダウンストリーム アプリケーションで大きな成功を収めています。
プロンプト、プレフィックス、アダプターなどの既存のチューニング方法は、元のアーキテクチャのさまざまな部分に対してタスク固有の軽量調整を実行します。
ただし、それらは事前トレーニング済みモデルの一部、つまりフィードフォワード層または自己注意層のみでのみ有効になり、残りの凍結された構造はダウンストリーム タスクのデータ分布に適応できなくなります。
さらに、既存の構造はトランスフォーマーと強く結びついており、パラメーター効率の高い展開と新しいアプローチの設計の柔軟性を妨げています。
このホワイト ペーパーでは、PETL の設計パラダイムを再検討し、パラメーター効率の高い転送学習のための統合フレームワーク U-Tuning を導き出します。これは、凍結されたパラメーターを使用した操作と、ダウンストリーム アプリケーションに操作を適応させる統合チューナーで構成されます。
U-Tuning フレームワークは、既存のメソッドを同時に包含し、パラメーター効率の高い転移学習のための新しいアプローチを導き出すことができます。これにより、既存の PETL メソッドと比較した場合、CIFAR-100 および FGVC データセットで同等以上のパフォーマンスを達成することが証明されます。
要約(オリジナル)
Parameter-efficient transfer learning (PETL) based on large-scale pre-trained foundation models has achieved great success in various downstream applications. Existing tuning methods, such as prompt, prefix, and adapter, perform task-specific lightweight adjustments to different parts of the original architecture. However, they take effect on only some parts of the pre-trained models, i.e., only the feed-forward layers or the self-attention layers, which leaves the remaining frozen structures unable to adapt to the data distributions of downstream tasks. Further, the existing structures are strongly coupled with the Transformers, hindering parameter-efficient deployment as well as the design flexibility for new approaches. In this paper, we revisit the design paradigm of PETL and derive a unified framework U-Tuning for parameter-efficient transfer learning, which is composed of an operation with frozen parameters and a unified tuner that adapts the operation for downstream applications. The U-Tuning framework can simultaneously encompass existing methods and derive new approaches for parameter-efficient transfer learning, which prove to achieve on-par or better performances on CIFAR-100 and FGVC datasets when compared with existing PETL methods.
arxiv情報
著者 | Zeyinzi Jiang,Chaojie Mao,Ziyuan Huang,Yiliang Lv,Deli Zhao,Jingren Zhou |
発行日 | 2023-03-01 17:38:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google