要約
パノラマイメージングにより、密度の高い全方向性知覚のために、超幅の視野フィールド(FOV)で360 {\ deg}画像をキャプチャできます。
ただし、現在のパノラマセマンティックセグメンテーション方法は外れ値を特定できず、ピンホールの分散分布セグメンテーション(OOS)モデルは、バックグラウンドクラッターとピクセルの歪みのためにパノラマドメインで不十分に機能します。
これらの問題に対処するために、パノラマのOOSを達成する新しいタスクであるパノラマの分散分布セグメンテーション(パヌー)を紹介します。
さらに、テキスト誘導迅速な分布学習を通じてパノラマ画像の特性に適応する最初のソリューションであるPOSを提案します。
具体的には、POSは、クリップのクロスドメイン一般化能力を具体化するために設計された解き込み戦略を統合します。
提案されたプロンプトベースの修復注意(PRA)は、迅速なガイダンスと自己適応補正によりセマンティックデコードを最適化し、Bilevel Prompt Distribution Learning(BPDL)は、セマンティックプロトタイプの監督を介してピクセルあたりのマスク埋め込みのマニホールドを改良します。
その上、パノーデータセットの希少性を補うために、複雑な環境で多様な外れ値を特徴とする濃度を備えた2つのベンチマークと、パノラマ環状レンズシステムを備えた四角いロボットによって捕獲されたクワドゥーの2つのベンチマークを確立します。
広範な実験はPOSの優れた性能を示し、AUPRCは34.25%改善し、FPR95は密な輪車で21.42%減少し、最先端のピンホールOOSメソッドを上回ります。
さらに、POSは、クローズドセットの主要なセグメンテーション機能を達成しています。
コードとデータセットはhttps://github.com/mengfeid/panoosで入手できます。
要約(オリジナル)
Panoramic imaging enables capturing 360{\deg} images with an ultra-wide Field-of-View (FoV) for dense omnidirectional perception. However, current panoramic semantic segmentation methods fail to identify outliers, and pinhole Out-of-distribution Segmentation (OoS) models perform unsatisfactorily in the panoramic domain due to background clutter and pixel distortions. To address these issues, we introduce a new task, Panoramic Out-of-distribution Segmentation (PanOoS), achieving OoS for panoramas. Furthermore, we propose the first solution, POS, which adapts to the characteristics of panoramic images through text-guided prompt distribution learning. Specifically, POS integrates a disentanglement strategy designed to materialize the cross-domain generalization capability of CLIP. The proposed Prompt-based Restoration Attention (PRA) optimizes semantic decoding by prompt guidance and self-adaptive correction, while Bilevel Prompt Distribution Learning (BPDL) refines the manifold of per-pixel mask embeddings via semantic prototype supervision. Besides, to compensate for the scarcity of PanOoS datasets, we establish two benchmarks: DenseOoS, which features diverse outliers in complex environments, and QuadOoS, captured by a quadruped robot with a panoramic annular lens system. Extensive experiments demonstrate superior performance of POS, with AuPRC improving by 34.25% and FPR95 decreasing by 21.42% on DenseOoS, outperforming state-of-the-art pinhole-OoS methods. Moreover, POS achieves leading closed-set segmentation capabilities. Code and datasets will be available at https://github.com/MengfeiD/PanOoS.
arxiv情報
著者 | Mengfei Duan,Kailun Yang,Yuheng Zhang,Yihong Cao,Fei Teng,Kai Luo,Jiaming Zhang,Zhiyong Li,Shutao Li |
発行日 | 2025-05-06 13:51:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google