Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation

要約

セマンティックセグメンテーション(DGSS)におけるオープンボキャブラリーセマンティックセグメンテーション(OVSS)とドメイン一般化は、オープンボキャブラリードメイン一般化セマンティックセグメンテーション(OV-DGSS)を動機付ける微妙な相補性を強調しています。
OV-DGSSは、目に見えないドメイン全体で堅牢性を維持しながら、目に見えないカテゴリのピクセルレベルマスクを生成することを目的としています。
OVSSとDGSSの強度を初めて統合するOV-DGSSの新しいシングルステージフレームワークであるVireoを紹介します。
Vireoは、冷凍Visual Foundationモデル(VFM)に基づいて構築され、深さVFMを介してシーンジオメトリを組み込んで、ドメインに不変の構造的特徴を抽出します。
ドメインシフト下の視覚モダリティとテキストモダリティのギャップを埋めるために、3つの重要なコンポーネントを提案します。(1)幾何学的特徴を言語キューに合わせ、VFMエンコーダー表現を徐々に改良するジオテキストプロンプトを提案します。
(2)より速い収束とより強いテキストの影響のために勾配流を強化するための粗いマスク事前埋め込み(CMPE)。
(3)堅牢な予測のために洗練された構造的および意味的特徴を融合するドメインオープンと音量のベクター埋め込みヘッド(DOV-veh)。
これらのコンポーネントの包括的な評価は、私たちの設計の有効性を示しています。
提案されているVireoは、最先端のパフォーマンスを達成し、既存の方法をドメイン一般化とオープンボキャブラリー認識の両方で大きなマージンで上回り、多様で動的な環境で堅牢な視覚的理解のための統一されたスケーラブルなソリューションを提供します。
コードはhttps://github.com/anonymouse-9c53tp182bvz/vireoで入手できます。

要約(オリジナル)

Open-Vocabulary semantic segmentation (OVSS) and domain generalization in semantic segmentation (DGSS) highlight a subtle complementarity that motivates Open-Vocabulary Domain-Generalized Semantic Segmentation (OV-DGSS). OV-DGSS aims to generate pixel-level masks for unseen categories while maintaining robustness across unseen domains, a critical capability for real-world scenarios such as autonomous driving in adverse conditions. We introduce Vireo, a novel single-stage framework for OV-DGSS that unifies the strengths of OVSS and DGSS for the first time. Vireo builds upon the frozen Visual Foundation Models (VFMs) and incorporates scene geometry via Depth VFMs to extract domain-invariant structural features. To bridge the gap between visual and textual modalities under domain shift, we propose three key components: (1) GeoText Prompts, which align geometric features with language cues and progressively refine VFM encoder representations; (2) Coarse Mask Prior Embedding (CMPE) for enhancing gradient flow for faster convergence and stronger textual influence; and (3) the Domain-Open-Vocabulary Vector Embedding Head (DOV-VEH), which fuses refined structural and semantic features for robust prediction. Comprehensive evaluation on these components demonstrates the effectiveness of our designs. Our proposed Vireo achieves the state-of-the-art performance and surpasses existing methods by a large margin in both domain generalization and open-vocabulary recognition, offering a unified and scalable solution for robust visual understanding in diverse and dynamic environments. Code is available at https://github.com/anonymouse-9c53tp182bvz/Vireo.

arxiv情報

著者 Siyu Chen,Ting Han,Chengzheng Fu,Changshe Zhang,Chaolei Wang,Jinhe Su,Guorong Cai,Meiliu Wu
発行日 2025-06-11 15:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク