Prompt-Matched Semantic Segmentation

要約

この作業の目的は、事前にトレーニングされたビジュアル基盤モデルを下流のタスク (画像セマンティック セグメンテーションなど) に効果的かつ効率的に適応させる方法を探ることです。
通常、従来の方法では、特定のデータセットごとにネットワーク全体を微調整していましたが、これらのネットワークの大量のパラメーターを保存するには負担がかかります。
最近のいくつかの研究では、いくつかの追加のトレーニング可能なパラメーターを凍結されたネットワークに挿入して、パラメーターを効率的に調整するための視覚的なプロンプトを学習しようとしました。
ただし、これらの作品はトランスフォーマー専用に設計されているため、一般性に乏しいものでした。
さらに、これらのスキームでは限られた情報を使用しているため、効果的なプロンプトを学習する能力が低いことが示されました。
これらの問題を軽減するために、一般的で効果的なビジュアル プロンプト チューニングのための新しい Inter-Stage Prompt-Matched Framework を提案します。
具体的には、一般性を確保するために、凍結されたパラメーターを使用して事前トレーニングされたバックボーンを複数の段階に分割し、異なる段階間で迅​​速な学習を実行します。これにより、提案されたスキームが CNN および Transformer のさまざまなアーキテクチャに適用可能になります。
効果的なチューニングのために、軽量のセマンティック認識 Prompt Matcher (SPM) は、中間セマンティック マップの豊富な情報に導かれて、反復メカニズムを使用して合理的なプロンプトを段階的に学習するように設計されています。
提案された SPM は、表現学習のディープ マッチド フィルターとして機能し、前の段階の出力を次の段階の望ましい入力にうまく変換できるため、事前にトレーニングされた知識のより良いマッチング/刺激を実現できます。
最後に、提案された方法を適用して、さまざまなセマンティック セグメンテーション タスクを処理します。
5 つのベンチマークに関する広範な実験は、提案された方式がパラメーター効率とパフォーマンス効果の間の有望なトレードオフを達成できることを示しています。

要約(オリジナル)

The objective of this work is to explore how to effectively and efficiently adapt pre-trained visual foundation models to downstream tasks, e.g., image semantic segmentation. Conventional methods usually fine-tuned the entire networks for each specific dataset, which will be burdensome to store massive parameters of these networks. Several recent works attempted to insert some extra trainable parameters into the frozen networks to learn visual prompts for parameter-efficient tuning. However, these works showed poor generality as they were designed specifically for Transformers. Moreover, using limited information in these schemes, they exhibited a poor capacity to learn effective prompts. To alleviate these issues, we propose a novel Inter-Stage Prompt-Matched Framework for generic and effective visual prompt tuning. Specifically, to ensure generality, we divide the pre-trained backbone with frozen parameters into multiple stages and perform prompt learning between different stages, which makes the proposed scheme applicable to various architectures of CNN and Transformer. For effective tuning, a lightweight Semantic-aware Prompt Matcher (SPM) is designed to progressively learn reasonable prompts with a recurrent mechanism, guided by the rich information of interim semantic maps. Working as a deep matched filter of representation learning, the proposed SPM can well transform the output of the previous stage into a desirable input for the next stage, thus achieving the better matching/stimulating for the pre-trained knowledge. Finally, we apply the proposed method to handle various semantic segmentation tasks. Extensive experiments on five benchmarks show that the proposed scheme can achieve a promising trade-off between parameter efficiency and performance effectiveness.

arxiv情報

著者 Lingbo Liu,Bruce X. B. Yu,Jianlong Chang,Qi Tian,Chang-Wen Chen
発行日 2022-09-29 12:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク