要約
偽装物体検出 (COD) アプローチは、ピクセル レベルのアノテーション付きデータセットに大きく依存します。
弱教師あり COD (WSCOD) アプローチでは、落書きや点などのまばらな注釈を使用して注釈の労力を軽減しますが、これにより精度が低下する可能性があります。
Segment Anything Model (SAM) は、点のようなまばらなプロンプトで優れたセグメンテーション能力を示します。
ただし、手動プロンプトは実際のアプリケーションではアクセスできない可能性があるため、常に実行可能であるとは限りません。
さらに、意味論的な情報ではなく、ローカリゼーション情報のみを提供するため、ターゲットの解釈に本質的に曖昧さが生じる可能性があります。
この作業では、手動プロンプトの必要性を排除することを目指しています。
重要なアイデアは、クロスモーダル思考連鎖プロンプティング (CCTP) を使用して、汎用テキスト プロンプトによって与えられる意味情報を使用して視覚的プロンプトを推論することです。そのために、Generalizable SAM (
GenSAM) を使用して、WSCOD の汎用タスク プロンプトであるビジュアル プロンプトを自動的に生成し、最適化します。
特に、CCTP は、ビジョン言語モデルを使用して、単一の汎用テキスト プロンプトを画像固有のコンセンサス前景および背景のヒートマップにマッピングし、信頼性の高い視覚的プロンプトを取得します。
さらに、視覚的なプロンプトをテスト時に適応させるために、入力画像の重み付けを反復的に変更するプログレッシブ マスク生成 (PMG) をさらに提案し、粗い方法から細かい方法でターゲットに焦点を合わせるようにモデルを導きます。
重要なのは、すべてのネットワーク パラメーターが固定されているため、追加のトレーニングが必要ないことです。
実験により、GenSAM の優位性が実証されました。
3 つのベンチマークの実験では、GenSAM がポイント監視アプローチよりも優れたパフォーマンスを示し、プロンプトとしての一般的なタスクの説明のみに依存して、落書き監視アプローチと同等の結果を達成することが実証されています。
私たちのコードは https://lwpyh.github.io/GenSAM/ にあります。
要約(オリジナル)
Camouflaged object detection (COD) approaches heavily rely on pixel-level annotated datasets. Weakly-supervised COD (WSCOD) approaches use sparse annotations like scribbles or points to reduce annotation effort, but this can lead to decreased accuracy. The Segment Anything Model (SAM) shows remarkable segmentation ability with sparse prompts like points. However, manual prompt is not always feasible, as it may not be accessible in real-world application. Additionally, it only provides localization information instead of semantic one, which can intrinsically cause ambiguity in interpreting the targets. In this work, we aim to eliminate the need for manual prompt. The key idea is to employ Cross-modal Chains of Thought Prompting (CCTP) to reason visual prompts using the semantic information given by a generic text prompt.To that end, we introduce a test-time adaptation per-instance mechanism called Generalizable SAM (GenSAM) to automatically enerate and optimize visual prompts the generic task prompt for WSCOD. In particular, CCTP maps a single generic text prompt onto image-specific consensus foreground and background heatmaps using vision-language models, acquiring reliable visual prompts. Moreover, to test-time adapt the visual prompts, we further propose Progressive Mask Generation (PMG) to iteratively reweight the input image, guiding the model to focus on the targets in a coarse-to-fine manner. Crucially, all network parameters are fixed, avoiding the need for additional training. Experiments demonstrate the superiority of GenSAM. Experiments on three benchmarks demonstrate that GenSAM outperforms point supervision approaches and achieves comparable results to scribble supervision ones, solely relying on general task descriptions as prompts. our codes is in: https://lwpyh.github.io/GenSAM/.
arxiv情報
著者 | Jian Hu,Jiayi Lin,Weitong Cai,Shaogang Gong |
発行日 | 2023-12-12 15:43:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google