要約
RGB-Dシーンの解析方法は、環境のセマンティックと幾何学的特徴の両方を効果的にキャプチャし、極端な天候や低照明などの困難な条件下で大きな可能性を示しています。
ただし、既存のRGB-Dシーンの解析方法は、主に監視されたトレーニング戦略に依存しています。これには、時間がかかり、費用がかかる大量の手動注釈付きピクセルレベルのラベルが必要です。
これらの制限を克服するために、RGB-Dシーンの解析用に特別に設計された半監視学習フレームワークであるDepthmatchを導入します。
ラベルのないデータを最大限に活用するために、RGB-D画像ペアのテクスチャ機能と空間的特徴の潜在的な関係を調査するために、補完的なパッチミックスアップの増強を提案します。
また、従来の複雑な融合モジュールを置き換えるために、軽量の空間事前インジェクターを設計し、不均一な特徴融合の効率を改善します。
さらに、モデルの境界予測機能を強化するために、深さ誘導境界損失を導入します。
実験結果は、深さ格子が屋内と屋外の両方のシーンで高い適用性を示し、NYUV2データセットで最先端の結果を達成し、キッティセマンティクスベンチマークで最初にランキングを達成することを示しています。
要約(オリジナル)
RGB-D scene parsing methods effectively capture both semantic and geometric features of the environment, demonstrating great potential under challenging conditions such as extreme weather and low lighting. However, existing RGB-D scene parsing methods predominantly rely on supervised training strategies, which require a large amount of manually annotated pixel-level labels that are both time-consuming and costly. To overcome these limitations, we introduce DepthMatch, a semi-supervised learning framework that is specifically designed for RGB-D scene parsing. To make full use of unlabeled data, we propose complementary patch mix-up augmentation to explore the latent relationships between texture and spatial features in RGB-D image pairs. We also design a lightweight spatial prior injector to replace traditional complex fusion modules, improving the efficiency of heterogeneous feature fusion. Furthermore, we introduce depth-guided boundary loss to enhance the model’s boundary prediction capabilities. Experimental results demonstrate that DepthMatch exhibits high applicability in both indoor and outdoor scenes, achieving state-of-the-art results on the NYUv2 dataset and ranking first on the KITTI Semantics benchmark.
arxiv情報
| 著者 | Jianxin Huang,Jiahang Li,Sergey Vityazev,Alexander Dvorkovich,Rui Fan | 
| 発行日 | 2025-05-26 14:26:31+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
