Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained Models for Spatiotemporal Modeling

要約

このペーパーでは、アクション認識などのビデオベースのアプリケーション向けのプロンプト チューニングの計算効率の高い変形であるアテンション プロンプト チューニング (APT) を紹介します。
プロンプト チューニングのアプローチには、バックボーンを凍結したまま微調整中にデータ トークンとともに学習可能なプロンプトのセットを挿入することが含まれます。
このアプローチでは、完全なチューニングと比較して、学習可能なパラメーターの数が大幅に減少します。
画像ベースのダウンストリーム タスクの場合、通常、いくつかの学習可能なプロンプトで完全なチューニングに近い結果が得られます。
ただし、ビデオにはより複雑な時空間情報が含まれているため、適切な結果を得るには何百もの調整可能なプロンプトが必要です。
これにより、画像で観察されるパラメーターの効率が低下し、推論中の待ち時間と浮動小数点演算 (FLOP) の数が大幅に増加します。
これらの問題に取り組むために、transformer ブロック内の非ローカル アテンション メカニズムのキーと値にプロンプ​​トを直接挿入します。
さらに、APT をハイパーパラメーターの選択に対してより堅牢にするための、新しいプロンプト再パラメーター化手法を導入します。
提案された APT アプローチは、アクション認識のための UCF101、HMDB51、および SSv2 データセットに対する既存のパラメーター効率の高い調整方法と比較して大幅なパフォーマンス向上を達成しながら、FLOP の数と遅延を大幅に削減します。
コードと事前トレーニングされたモデルは https://github.com/wgcban/apt で入手できます。

要約(オリジナル)

In this paper, we introduce Attention Prompt Tuning (APT) – a computationally efficient variant of prompt tuning for video-based applications such as action recognition. Prompt tuning approaches involve injecting a set of learnable prompts along with data tokens during fine-tuning while keeping the backbone frozen. This approach greatly reduces the number of learnable parameters compared to full tuning. For image-based downstream tasks, normally a couple of learnable prompts achieve results close to those of full tuning. However, videos, which contain more complex spatiotemporal information, require hundreds of tunable prompts to achieve reasonably good results. This reduces the parameter efficiency observed in images and significantly increases latency and the number of floating-point operations (FLOPs) during inference. To tackle these issues, we directly inject the prompts into the keys and values of the non-local attention mechanism within the transformer block. Additionally, we introduce a novel prompt reparameterization technique to make APT more robust against hyperparameter selection. The proposed APT approach greatly reduces the number of FLOPs and latency while achieving a significant performance boost over the existing parameter-efficient tuning methods on UCF101, HMDB51, and SSv2 datasets for action recognition. The code and pre-trained models are available at https://github.com/wgcban/apt

arxiv情報

著者 Wele Gedara Chaminda Bandara,Vishal M. Patel
発行日 2024-03-11 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク