要約
目に見えないドメイン (クラス) をより効率的に一般化するために、ほとんどのフューショット セグメンテーション (FSS) は、特に現在の大規模モデルの時代では、事前トレーニングされたエンコーダーを直接利用し、デコーダーのみを微調整します。
ただし、このような固定機能エンコーダーはクラスに依存しない傾向があり、ターゲット クラスに無関係なオブジェクトを必然的にアクティブ化します。
対照的に、人間は視線内の特定のオブジェクトに簡単に焦点を合わせることができます。
この論文は、人間の視覚認識パターンを模倣し、「プロンプト アンド トランスファー」(PAT)と呼ばれる、新しく強力なプロンプト駆動スキームを提案します。これは、興味のあるものに焦点を合わせるためにエンコーダを調整するための動的なクラス認識プロンプト パラダイムを構築します。
現在のタスクのオブジェクト (ターゲット クラス)。
プロンプトを強化するために 3 つの重要なポイントが詳しく説明されています。 1) 各タスクのプロンプトを初期化するために、クロスモーダル言語情報が導入されます。
2) イメージ内のクラス固有のセマンティクスをプロンプトに正確に転送するセマンティック プロンプト転送 (SPT)。
3) パーツ マスク ジェネレーター (PMG) は、SPT と連携して、さまざまな個人向けに異なるが補完的なパーツ プロンプトを適応的に生成します。
驚くべきことに、PAT は、標準 FSS、クロスドメイン FSS (CV、医療、およびリモート センシング ドメインなど)、弱いラベル FSS、およびゼロショット セグメンテーションを含む 4 つの異なるタスクで競争力のあるパフォーマンスを達成し、新たな状態を確立しています。
11 のベンチマークで芸術を評価。
要約(オリジナル)
For more efficient generalization to unseen domains (classes), most Few-shot Segmentation (FSS) would directly exploit pre-trained encoders and only fine-tune the decoder, especially in the current era of large models. However, such fixed feature encoders tend to be class-agnostic, inevitably activating objects that are irrelevant to the target class. In contrast, humans can effortlessly focus on specific objects in the line of sight. This paper mimics the visual perception pattern of human beings and proposes a novel and powerful prompt-driven scheme, called “Prompt and Transfer’ (PAT), which constructs a dynamic class-aware prompting paradigm to tune the encoder for focusing on the interested object (target class) in the current task. Three key points are elaborated to enhance the prompting: 1) Cross-modal linguistic information is introduced to initialize prompts for each task. 2) Semantic Prompt Transfer (SPT) that precisely transfers the class-specific semantics within the images to prompts. 3) Part Mask Generator (PMG) that works in conjunction with SPT to adaptively generate different but complementary part prompts for different individuals. Surprisingly, PAT achieves competitive performance on 4 different tasks including standard FSS, Cross-domain FSS (e.g., CV, medical, and remote sensing domains), Weak-label FSS, and Zero-shot Segmentation, setting new state-of-the-arts on 11 benchmarks.
arxiv情報
著者 | Hanbo Bi,Yingchao Feng,Wenhui Diao,Peijin Wang,Yongqiang Mao,Kun Fu,Hongqi Wang,Xian Sun |
発行日 | 2024-09-16 15:24:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google