Hierarchical Side-Tuning for Vision Transformers

要約

事前トレーニングされたビジョン トランスフォーマー (ViT) を微調整することで、視覚認識タスクの強化に大きな期待がもてます。
しかし、タスクごとに個別かつ包括的な微調整プロセスを求めるには、相当な計算コストとメモリ コストがかかり、かなりの課題が生じます。
パラメータ効率の高い転移学習 (PETL) の最近の進歩により、完全な微調整と比較して少ないパラメータ更新で高いパフォーマンスを達成できる可能性が示されています。
ただし、その有効性は主に画像分類などの単純なタスクで観察されますが、高密度予測などのより複雑な視覚タスクでは課題に直面します。
このギャップに対処するために、この研究は、より広範囲の視覚タスクに対応する効果的な調整方法を特定することを目的としています。
このペーパーでは、ViT モデルのさまざまな下流タスクへの転送を容易にする革新的な PETL 手法である階層サイドチューニング (HST) を紹介します。
特定の入力空間またはモジュール内のパラメーターの微調整のみに焦点を当てた既存の方法とは異なり、HST は軽量の階層サイド ネットワーク (HSN) を採用しています。
このネットワークは、ViT バックボーンからの中間アクティベーションを利用してマルチスケール機能をモデル化し、予測機能を強化します。
HST を評価するために、分類、オブジェクト検出、インスタンス セグメンテーション、セマンティック セグメンテーションなど、さまざまな視覚タスクにわたって包括的な実験を実施しました。
注目すべきことに、HST は、わずか 0.78 万個のパラメータを微調整しながら、VTAB-1K ベンチマークの 19 タスクのうち 13 タスクで最先端のパフォーマンスを達成し、トップ 1 精度の最高平均 76.1% を達成しました。
COCO および ADE20K testdev ベンチマークでオブジェクト検出およびセマンティック セグメンテーション タスクに適用した場合、HST は既存の PETL 手法を上回り、完全な微調整さえも上回りました。

要約(オリジナル)

Fine-tuning pre-trained Vision Transformers (ViTs) has showcased significant promise in enhancing visual recognition tasks. Yet, the demand for individualized and comprehensive fine-tuning processes for each task entails substantial computational and memory costs, posing a considerable challenge. Recent advancements in Parameter-Efficient Transfer Learning (PETL) have shown potential for achieving high performance with fewer parameter updates compared to full fine-tuning. However, their effectiveness is primarily observed in simple tasks like image classification, while they encounter challenges with more complex vision tasks like dense prediction. To address this gap, this study aims to identify an effective tuning method that caters to a wider range of visual tasks. In this paper, we introduce Hierarchical Side-Tuning (HST), an innovative PETL method facilitating the transfer of ViT models to diverse downstream tasks. Diverging from existing methods that focus solely on fine-tuning parameters within specific input spaces or modules, HST employs a lightweight Hierarchical Side Network (HSN). This network leverages intermediate activations from the ViT backbone to model multi-scale features, enhancing prediction capabilities. To evaluate HST, we conducted comprehensive experiments across a range of visual tasks, including classification, object detection, instance segmentation, and semantic segmentation. Remarkably, HST achieved state-of-the-art performance in 13 out of the 19 tasks on the VTAB-1K benchmark, with the highest average Top-1 accuracy of 76.1%, while fine-tuning a mere 0.78M parameters. When applied to object detection and semantic segmentation tasks on the COCO and ADE20K testdev benchmarks, HST outperformed existing PETL methods and even surpassed full fine-tuning.

arxiv情報

著者 Weifeng Lin,Ziheng Wu,Wentao Yang,Mingxin Huang,Jun Huang,Lianwen Jin
発行日 2024-05-15 16:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク