Inspiring the Next Generation of Segment Anything Models: Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes

要約

基礎モデルとして、SAMはコンピュータービジョン内の複数のフィールドに大きな影響を与えており、アップグレードされたバージョンであるSam 2は、ビデオセグメンテーションの機能を強化し、再び大きな影響を与える態勢を整えました。
Sams(SamとSam 2)は、人、車、道路などのコンテキストに依存しない概念をセグメント化する優れたパフォーマンスを実証していますが、視覚的顕著性、カモフラージュ、製品の欠陥、医療病変などのより挑戦的なコンテキスト依存(CD)の概念を見落としています。
CDの概念は、グローバルおよびローカルのコンテキスト情報に大きく依存しているため、さまざまなコンテキストでのシフトの影響を受けやすく、モデルからの強力な識別機能が必要です。
SAMSの包括的な評価の欠如は、パフォーマンスの境界の理解を制限し、将来のモデルの設計を妨げる可能性があります。
この論文では、自然、医療、産業のシーン内のさまざまな視覚モダリティで、2Dおよび3Dの画像とビデオの3D画像とビデオにわたって11のCDコンセプトでSAMの徹底的な定量的評価を実施しています。
特定の迅速な生成と相互作用戦略によって支援された、マニュアル、自動、および中間の自己宣伝をサポートするSAMおよびSAM 2の統一された評価フレームワークを開発します。
さらに、コンテキスト内学習用のSAM 2の可能性を調査し、実際の不完全なプロンプトをシミュレートするためのプロンプトの堅牢性テストを導入します。
最後に、CDの概念を理解する際のSAMの利点と制限を分析し、セグメンテーションタスクにおける将来の開発について議論します。
この作業の目的は、コンテキストに依存しない概念とコンテキスト依存の両方の概念セグメンテーションの将来の研究を導くための貴重な洞察を提供することを目的としており、次のバージョンの開発を潜在的に通知します-SAM 3。

要約(オリジナル)

As a foundational model, SAM has significantly influenced multiple fields within computer vision, and its upgraded version, SAM 2, enhances capabilities in video segmentation, poised to make a substantial impact once again. While SAMs (SAM and SAM 2) have demonstrated excellent performance in segmenting context-independent concepts like people, cars, and roads, they overlook more challenging context-dependent (CD) concepts, such as visual saliency, camouflage, product defects, and medical lesions. CD concepts rely heavily on global and local contextual information, making them susceptible to shifts in different contexts, which requires strong discriminative capabilities from the model. The lack of comprehensive evaluation of SAMs limits understanding of their performance boundaries, which may hinder the design of future models. In this paper, we conduct a thorough quantitative evaluation of SAMs on 11 CD concepts across 2D and 3D images and videos in various visual modalities within natural, medical, and industrial scenes. We develop a unified evaluation framework for SAM and SAM 2 that supports manual, automatic, and intermediate self-prompting, aided by our specific prompt generation and interaction strategies. We further explore the potential of SAM 2 for in-context learning and introduce prompt robustness testing to simulate real-world imperfect prompts. Finally, we analyze the benefits and limitations of SAMs in understanding CD concepts and discuss their future development in segmentation tasks. This work aims to provide valuable insights to guide future research in both context-independent and context-dependent concepts segmentation, potentially informing the development of the next version — SAM 3.

arxiv情報

著者 Xiaoqi Zhao,Youwei Pang,Shijie Chang,Yuan Zhao,Lihe Zhang,Huchuan Lu,Georges El Fakhri,Xiaofeng Liu
発行日 2025-05-16 14:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク