要約
大規模な事前トレーニング技術の最近の進歩により、ビジョン基盤モデル、特にポイントおよびボックス プロンプトに基づいて正確なマスクを生成できるセグメント エニシング モデル (SAM) の機能が大幅に強化されました。
最近の研究では、SAM を少数ショット セマンティック セグメンテーション (FSS) に拡張し、SAM ベースの自動セマンティック セグメンテーションのプロンプト生成に焦点を当てています。
ただし、これらの方法では、適切なプロンプトを選択するのに苦労し、さまざまなシナリオに合わせて特定のハイパーパラメータ設定が必要であり、SAM の過剰使用によりワンショット推論時間が長くなり、効率が低く自動化機能が制限されます。
これらの問題に対処するために、グラフ分析に基づいたシンプルかつ効果的なアプローチを提案します。
特に、ポジティブ/ネガティブ アラインメント モジュールは、マスクを生成するためのポイント プロンプトを動的に選択し、特にネガティブ参照としての背景コンテキストの可能性を明らかにします。
後続の別のポイントマスク クラスタリング モジュールは、ポイント上のマスク カバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして調整します。
これらの点は、有向グラフの弱く接続されたコンポーネントを効率的な方法で分解することによって集約され、別個の自然なクラスターを構築します。
最後に、グラフベースの粒度調整の利点を活かしたポジティブ ゲートとオーバーシュート ゲーティングは、信頼性の高いマスクを集約し、最終予測のために偽陽性マスクをフィルタリングして除外し、追加のハイパーパラメータの使用と冗長なマスク生成を削減します。
標準 FSS、ワンショット パーツ セグメンテーション、およびクロスドメイン FSS データセットにわたる広範な実験分析により、提案されたアプローチの有効性と効率性が検証され、COCO-20i および 35.2 の mIoU が 58.7% という最先端のジェネラリスト モデルを上回っています。
LVIS-92i では %。
コードは https://andyzaq.github.io/GF-SAM/ で入手できます。
要約(オリジナル)
The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.
arxiv情報
著者 | Anqi Zhang,Guangyu Gao,Jianbo Jiao,Chi Harold Liu,Yunchao Wei |
発行日 | 2024-10-11 15:09:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google