EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding

要約

教師なしドメイン適応は、セマンティック セグメンテーション モデルをデータ分散全体に転送するための効率的なアプローチです。
一方、大規模なビジョン言語モデルに基づく最近のオープン語彙セマンティックシーン理解は、多様な概念やカテゴリを学習できるため、オープンセット環境で効果的です。
しかしながら、これらの従来の方法は、ビューを横断する幾何学的モデリングが欠如しているため、異なるカメラビューにわたって一般化することができない。
現時点では、クロスビュー学習を分析する研究は限られています。
この問題に対処するために、意味論的シーン理解におけるビュー間の幾何学的構造変化をモデル化する新しい教師なしクロスビュー適応学習アプローチを導入します。
まず、不対データに対する新しいクロスビュー幾何制約を導入して、カメラ全体の画像とセグメンテーション マスクの構造変化をモデル化します。
2 番目に、カメラ ビュー全体の幾何学的構造の変化を効率的に測定するための、新しい測地線フロー ベースの相関メトリックを提示します。
第三に、クロスビュー適応学習におけるオープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するための、新しいビュー条件プロンプトメカニズムを導入します。
さまざまなクロスビュー適応ベンチマークの実験では、クロスビュー モデリングにおける私たちのアプローチの有効性が示され、以前の教師なしドメイン適応やオープン語彙セマンティック セグメンテーション手法と比較して最先端 (SOTA) パフォーマンスを達成できることが実証されました。

要約(オリジナル)

Unsupervised Domain Adaptation has been an efficient approach to transferring the semantic segmentation model across data distributions. Meanwhile, the recent Open-vocabulary Semantic Scene understanding based on large-scale vision language models is effective in open-set settings because it can learn diverse concepts and categories. However, these prior methods fail to generalize across different camera views due to the lack of cross-view geometric modeling. At present, there are limited studies analyzing cross-view learning. To address this problem, we introduce a novel Unsupervised Cross-view Adaptation Learning approach to modeling the geometric structural change across views in Semantic Scene Understanding. First, we introduce a novel Cross-view Geometric Constraint on Unpaired Data to model structural changes in images and segmentation masks across cameras. Second, we present a new Geodesic Flow-based Correlation Metric to efficiently measure the geometric structural changes across camera views. Third, we introduce a novel view-condition prompting mechanism to enhance the view-information modeling of the open-vocabulary segmentation network in cross-view adaptation learning. The experiments on different cross-view adaptation benchmarks have shown the effectiveness of our approach in cross-view modeling, demonstrating that we achieve State-of-the-Art (SOTA) performance compared to prior unsupervised domain adaptation and open-vocabulary semantic segmentation methods.

arxiv情報

著者 Thanh-Dat Truong,Utsav Prabhu,Dongyi Wang,Bhiksha Raj,Susan Gauch,Jeyamkondan Subbiah,Khoa Luu
発行日 2024-10-11 14:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク