要約
既存のマルチモーダル顕著物体検出 (SOD) 手法のほとんどは、モデルを最初からトレーニングすることで有効性を実証していますが、マルチモーダル データが限られているため、これらの手法が最適化に達することが妨げられています。
この論文では、マルチモーダル SOD 用の事前トレーニング済みセグメント何でもモデル (SAM) の強力な特徴表現とゼロショット汎化能力を探索および活用するための新しいフレームワークを提案します。
最近の視覚の基本モデルとして機能しているにもかかわらず、特に困難なシーンでは、クラスに依存しない SAM を駆動して顕著なオブジェクトを正確に理解して検出することは簡単ではありません。
この目的を達成するために、私たちはマルチモーダル顕著性を組み込んだ se\underline{m}antic f\underline{e}ature fu\underline{s}ion guidac\underline{e} (Sammese) を使用して \underline{SAM} を開発します。
特定の知識を SAM に組み込み、SAM をマルチモーダル SOD タスクに適応させます。
ただし、単一モーダル データでトレーニングされた SAM が、マルチモーダル入力の相補的な利点を直接マイニングし、それらを包括的に利用して正確な顕著性予測を達成することは困難です。これらの問題に対処するために、最初にマルチモーダル相補融合モジュールを設計します。
可視画像と熱画像または深度画像のペアからの情報を統合することにより、堅牢なマルチモーダルな意味論的特徴を抽出します。
次に、抽出されたマルチモーダル セマンティック特徴を SAM 画像エンコーダーとマスク デコーダーの両方に入力して、それぞれ微調整とプロンプトを実行します。
具体的には、画像エンコーダでは、シングルモーダル SAM をマルチモーダル情報に適応させるマルチモーダル アダプタが提案されています。
マスク デコーダでは、さまざまな顕著性キューを備えた対応する埋め込みを生成するために、意味幾何学的プロンプト生成戦略が提案されています。
RGB-D と RGB-T SOD ベンチマークの両方に関する広範な実験により、提案されたフレームワークの有効性が示されています。
要約(オリジナル)
Although most existing multi-modal salient object detection (SOD) methods demonstrate effectiveness through training models from scratch, the limited multi-modal data hinders these methods from reaching optimality. In this paper, we propose a novel framework to explore and exploit the powerful feature representation and zero-shot generalization ability of the pre-trained Segment Anything Model (SAM) for multi-modal SOD. Despite serving as a recent vision fundamental model, driving the class-agnostic SAM to comprehend and detect salient objects accurately is non-trivial, especially in challenging scenes. To this end, we develop \underline{SAM} with se\underline{m}antic f\underline{e}ature fu\underline{s}ion guidanc\underline{e} (Sammese), which incorporates multi-modal saliency-specific knowledge into SAM to adapt SAM to multi-modal SOD tasks. However, it is difficult for SAM trained on single-modal data to directly mine the complementary benefits of multi-modal inputs and comprehensively utilize them to achieve accurate saliency prediction.To address these issues, we first design a multi-modal complementary fusion module to extract robust multi-modal semantic features by integrating information from visible and thermal or depth image pairs. Then, we feed the extracted multi-modal semantic features into both the SAM image encoder and mask decoder for fine-tuning and prompting, respectively. Specifically, in the image encoder, a multi-modal adapter is proposed to adapt the single-modal SAM to multi-modal information. In the mask decoder, a semantic-geometric prompt generation strategy is proposed to produce corresponding embeddings with various saliency cues. Extensive experiments on both RGB-D and RGB-T SOD benchmarks show the effectiveness of the proposed framework.
arxiv情報
著者 | Kunpeng Wang,Danying Lin,Chenglong Li,Zhengzheng Tu,Bin Luo |
発行日 | 2024-08-28 08:28:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google