Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition

要約

パラメータ効率の高い転移学習 (PETL) は、比較的低コストで大規模な事前トレーニング済みモデルを下流のタスクに適応させることを目的とした有望なタスクです。
しかし、現在の PETL 手法は計算の複雑さを圧縮するのに苦労しており、完全な前方プロセスにより推論の負担が大きくなります。
この論文では、ダイナミック アダプター (Dyn-Adapter) と呼ばれる効率的な視覚認識パラダイムを紹介します。このパラダイムは、複数のレベルで特徴を微妙に解きほぐすことで PETL の効率を高めます。
私たちのアプローチはシンプルです。まず、適応トレーニング戦略とともに、マルチレベルの特徴抽出のためのバランスのとれた初期ヘッドを備えた動的アーキテクチャを考案します。
第 2 に、強力な汎化能力の追求によって推進される双方向のスパーシティ戦略を導入します。
これらの特性により、効率的かつ効果的に微調整することが可能になります。つまり、より高い認識精度を維持または実現しながら、推論中の FLOP を 50% 削減します。
多様なデータセットと事前トレーニングされたバックボーンに関する広範な実験により、Dyn-Adapter が視覚認識タスクにおける PETL の一般的な効率向上剤として機能する可能性が実証されました。

要約(オリジナル)

Parameter-efficient transfer learning (PETL) is a promising task, aiming to adapt the large-scale pre-trained model to downstream tasks with a relatively modest cost. However, current PETL methods struggle in compressing computational complexity and bear a heavy inference burden due to the complete forward process. This paper presents an efficient visual recognition paradigm, called Dynamic Adapter (Dyn-Adapter), that boosts PETL efficiency by subtly disentangling features in multiple levels. Our approach is simple: first, we devise a dynamic architecture with balanced early heads for multi-level feature extraction, along with adaptive training strategy. Second, we introduce a bidirectional sparsity strategy driven by the pursuit of powerful generalization ability. These qualities enable us to fine-tune efficiently and effectively: we reduce FLOPs during inference by 50%, while maintaining or even yielding higher recognition accuracy. Extensive experiments on diverse datasets and pretrained backbones demonstrate the potential of Dyn-Adapter serving as a general efficiency booster for PETL in vision recognition tasks.

arxiv情報

著者 Yurong Zhang,Honghao Chen,Xinyu Zhang,Xiangxiang Chu,Li Song
発行日 2024-07-19 13:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク