要約
この作業の目的は、事前トレーニング済みの基盤モデルを、画像セマンティック セグメンテーションのさまざまなダウンストリーム タスクに効果的かつ効率的に適応させる方法を探ることです。
従来の方法では通常、特定のデータセットごとにネットワーク全体を微調整しており、これらのネットワークの膨大なパラメーターを保存するのは面倒でした。
最近のいくつかの研究では、効率的なチューニングのための視覚的なプロンプトを学習するために、いくつかのトレーニング可能なパラメーターを凍結されたネットワークに挿入しようとしました。
しかし、これらの作業により、標準モジュールの元の構造が大幅に変更され、標準モジュールとそのパラメーターが組み込まれている多くの既存の高速推論デバイスでは動作しなくなりました。
プロンプトベースのセマンティックセグメンテーションを容易にするために、タスク指向のチューニングに合わせて視覚的なプロンプトを適応的に生成しながら、基盤モデルの元の構造を維持する新しいステージ間プロンプト一致フレームワークを提案します。
具体的には、事前トレーニング済みのモデルが最初に複数のステージに分割され、それらのパラメーターが凍結され、すべてのセマンティック セグメンテーション タスクで共有されます。
次に、Semantic-aware Prompt Matcher と呼ばれる軽量モジュールを導入して、2 つのステージ間を階層的に補間し、暫定的なセマンティック マップのガイダンスの下で、特定のタスクごとに適切なプロンプトを学習します。
このようにして、凍結されたモデルの事前トレーニング済みの知識をより適切に刺激して、下流のデータセットでセマンティックな概念を効果的に学習できます。
5 つのベンチマークで実施された広範な実験は、提案された方法がパラメーター効率とパフォーマンス効果の間の有望なトレードオフを達成できることを示しています。
要約(オリジナル)
The objective of this work is to explore how to effectively and efficiently adapt pre-trained foundation models to various downstream tasks of image semantic segmentation. Conventional methods usually fine-tuned the whole networks for each specific dataset and it was burdensome to store the massive parameters of these networks. A few recent works attempted to insert some trainable parameters into the frozen network to learn visual prompts for efficient tuning. However, these works significantly modified the original structure of standard modules, making them inoperable on many existing high-speed inference devices, where standard modules and their parameters have been embedded. To facilitate prompt-based semantic segmentation, we propose a novel Inter-Stage Prompt-Matched Framework, which maintains the original structure of the foundation model while generating visual prompts adaptively for task-oriented tuning. Specifically, the pre-trained model is first divided into multiple stages, and their parameters are frozen and shared for all semantic segmentation tasks. A lightweight module termed Semantic-aware Prompt Matcher is then introduced to hierarchically interpolate between two stages to learn reasonable prompts for each specific task under the guidance of interim semantic maps. In this way, we can better stimulate the pre-trained knowledge of the frozen model to learn semantic concepts effectively on downstream datasets. Extensive experiments conducted on five benchmarks show that the proposed method can achieve a promising trade-off between parameter efficiency and performance effectiveness.
arxiv情報
著者 | Lingbo Liu,Bruce X. B. Yu,Jianlong Chang,Qi Tian,Chang-Wen Chen |
発行日 | 2022-08-22 09:12:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google