要約
ディープモデルが指数関数的に成長するにつれて、事前トレーニングされたエンコーダーとタスク固有のデコーダーの完全な微調整 (FFT) に基づく転移学習はますます複雑になります。
小さな学習可能な層で構成されるアダプターを使用するパラメーター効率的微調整 (PEFT) アプローチが、FFT の代替として登場し、高いトレーニング効率を維持しながら同等のパフォーマンスを達成します。
ただし、入力インスタンスに関してアダプターが柔軟性に欠けているため、さまざまな下流タスクでタスク固有の情報を学習する能力が制限されます。
この論文では、入力インスタンスに条件付けされた動的アダプターを利用する、iConFormer と呼ばれる新しい PEFT アプローチである入力条件付きトランスフォーマーを提案します。
さまざまなダウンストリーム タスクにおける入力インスタンスの柔軟な学習機能を確保するために、インスタンス レベルの特徴変換を可能にする動的アダプターに入力条件付きネットワーク (iCoN) を導入します。
具体的には、iCoN は機能ごとにチャネルごとの畳み込みカーネルを生成し、適応畳み込みプロセスを使用して変換して、下流のタスクに合わせてタスク固有のきめ細かい詳細を効果的にキャプチャします。
実験結果は、Transformer バックボーン パラメータのわずか 1.6% ~ 2.8% を調整するだけで、iConFormer が単眼深度推定とセマンティック セグメンテーションにおいて FFT に匹敵するパフォーマンスを達成し、画像分類とインスタンス セグメンテーションにおいてはそれを上回るパフォーマンスを達成することを示しています。
また、提案された方法は、上記のすべてのタスクについて、一貫して最近の PEFT 方法よりも優れています。
要約(オリジナル)
Transfer learning based on full fine-tuning (FFT) of the pre-trained encoder and task-specific decoder becomes increasingly complex as deep models grow exponentially. Parameter efficient fine-tuning (PEFT) approaches using adapters consisting of small learnable layers have emerged as an alternative to FFT, achieving comparable performance while maintaining high training efficiency. However, the inflexibility of the adapter with respect to input instances limits its capability of learning task-specific information in diverse downstream tasks. In this paper, we propose a novel PEFT approach, input-Conditioned transFormer, termed iConFormer, that leverages a dynamic adapter conditioned on the input instances. To secure flexible learning ability on input instances in various downstream tasks, we introduce an input-Conditioned Network (iCoN) in the dynamic adapter that enables instance-level feature transformation. To be specific, iCoN generates channel-wise convolutional kernels for each feature and transform it using adaptive convolution process to effectively capture task-specific and fine-grained details tailor to downstream tasks. Experimental results demonstrate that by tuning just 1.6% to 2.8% of the Transformer backbone parameters, iConFormer achieves performance comparable to FFT in monocular depth estimation and semantic segmentation, while outperforming it in image classification and instance segmentation. Also, the proposed method consistently outperforms recent PEFT methods for all the tasks mentioned above.
arxiv情報
著者 | Hayeon Jo,Hyesong Choi,Minhee Cho,Dongbo Min |
発行日 | 2024-09-04 16:06:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google