要約
画像セグメンテーションファンデーションモデル(SFMS)のようなセグメントAnyny Anything Model(SAM)は、多様なドメイン全体で印象的なゼロショットとインタラクティブセグメンテーションを達成しました。
しかし、彼らは、特定の構造、特に密集した樹木のような形態と周囲のテクスチャのコントラストが低い構造を持つオブジェクトをセグメント化するのに苦労しています。
これらの障害モードは、実際のアプリケーションにおけるSFMの制限を理解するために重要です。
この問題を体系的に研究するために、オブジェクトの樹木のように定量化された解釈可能なメトリックを導入します。
慎重に制御された合成実験と実世界のデータセットでは、SFMのパフォーマンス(SAM、SAM 2、HQ-SAMなど)がこれらの要因と顕著に相関することを示しています。
これらの障害を「テクスチャーの混乱」にリンクします。モデルでは、モデルがローカル構造をグローバルなテクスチャと誤って解釈し、オブジェクトを同様の背景から区別することを困難にします。
特に、ターゲットを絞った微調整はこの問題を解決できず、基本的な制限を示しています。
私たちの研究は、挑戦的な構造に対するSFMの動作をモデル化するための最初の定量的枠組みを提供し、セグメンテーション機能に関する解釈可能な洞察を提供します。
要約(オリジナル)
Image segmentation foundation models (SFMs) like Segment Anything Model (SAM) have achieved impressive zero-shot and interactive segmentation across diverse domains. However, they struggle to segment objects with certain structures, particularly those with dense, tree-like morphology and low textural contrast from their surroundings. These failure modes are crucial for understanding the limitations of SFMs in real-world applications. To systematically study this issue, we introduce interpretable metrics quantifying object tree-likeness and textural separability. On carefully controlled synthetic experiments and real-world datasets, we show that SFM performance (e.g., SAM, SAM 2, HQ-SAM) noticeably correlates with these factors. We link these failures to ‘textural confusion’, where models misinterpret local structure as global texture, causing over-segmentation or difficulty distinguishing objects from similar backgrounds. Notably, targeted fine-tuning fails to resolve this issue, indicating a fundamental limitation. Our study provides the first quantitative framework for modeling the behavior of SFMs on challenging structures, offering interpretable insights into their segmentation capabilities.
arxiv情報
著者 | Yixin Zhang,Nicholas Konz,Kevin Kramer,Maciej A. Mazurowski |
発行日 | 2025-03-10 14:42:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google