Native Segmentation Vision Transformers

要約

均一なダウンサンプリングは、視覚バックボーンの空間分解能を減らすための事実上の基準のままです。
この作業では、画像境界とそのセマンティックコンテンツに基づいてトークンを縮小セットに動的に割り当てるコンテンツに認識された空間グループ化レイヤーを中心に構築された代替デザインを提案します。
連続したバックボーン段階にわたってグループ化層を積み重ねると、特徴抽出プロセスでネイティブに発生する階層セグメンテーションが発生し、生成されたネイティブセグメンテーションビジョントランスが生じます。
アーキテクチャの慎重な設計により、グループ化層のみ、つまり追加のセグメンテーション固有のヘッドがないことからの強力なセグメンテーションマスクの出現が可能になることを示しています。
これにより、ネイティブのバックボーンレベルのセグメンテーションの新しいパラダイムの基礎が設定され、マスクの監督なしで強力なゼロショット結果と、下流のセグメンテーションタスクの最小限で効率的なスタンドアロンモデル設計を可能にします。
プロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/native-segmentationです。

要約(オリジナル)

Uniform downsampling remains the de facto standard for reducing spatial resolution in vision backbones. In this work, we propose an alternative design built around a content-aware spatial grouping layer, that dynamically assigns tokens to a reduced set based on image boundaries and their semantic content. Stacking our grouping layer across consecutive backbone stages results in hierarchical segmentation that arises natively in the feature extraction process, resulting in our coined Native Segmentation Vision Transformer. We show that a careful design of our architecture enables the emergence of strong segmentation masks solely from grouping layers, that is, without additional segmentation-specific heads. This sets the foundation for a new paradigm of native, backbone-level segmentation, which enables strong zero-shot results without mask supervision, as well as a minimal and efficient standalone model design for downstream segmentation tasks. Our project page is https://research.nvidia.com/labs/dvl/projects/native-segmentation.

arxiv情報

著者 Guillem Brasó,Aljoša Ošep,Laura Leal-Taixé
発行日 2025-05-22 17:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク