要約
既存のRGB-Dセマンティックセグメンテーション手法の多くは、複雑なクロスモダリティやクロススケール融合モジュールを含む、特徴レベルの融合に焦点を当てている。しかし、これらの手法では、特徴融合プロセスにおける位置ずれの問題や、セグメンテーション結果における直感に反するパッチが発生する可能性がある。我々は、一般的なピクセル-ノード-ピクセルのパイプラインに触発され、1)幾何学的特徴注入がテクスチャ特徴に先行して導かれる後期融合スタイルで、2)パッチ関係を推論することによって不規則なパッチの出現を緩和するために、融合された特徴にグラフニューラルネットワーク(GNN)を採用することを提案する。3D特徴抽出の段階で、我々は従来のCNNは深度マップに対して十分に効率的ではないと主張する。投影行列生成の段階で、我々はオリジナルのパイプラインにおけるBiased-AssignmentとAmbiguous-Localityの問題の存在を発見する。そこで我々は、1)重要な画素の特徴が欠落しないことを保証するためにKullback-Leibler Lossを採用することを提案する。2つの公開データセット、NYU-DepthV2とSUN RGB-Dを用いた広範な実験により、我々のアプローチがRGB-Dの意味的セグメンテーションタスクの性能を一貫して向上できることが示された。
要約(オリジナル)
Most existing RGB-D semantic segmentation methods focus on the feature level fusion, including complex cross-modality and cross-scale fusion modules. However, these methods may cause misalignment problem in the feature fusion process and counter-intuitive patches in the segmentation results. Inspired by the popular pixel-node-pixel pipeline, we propose to 1) fuse features from two modalities in a late fusion style, during which the geometric feature injection is guided by texture feature prior; 2) employ Graph Neural Networks (GNNs) on the fused feature to alleviate the emergence of irregular patches by inferring patch relationship. At the 3D feature extraction stage, we argue that traditional CNNs are not efficient enough for depth maps. So, we encode depth map into normal map, after which CNNs can easily extract object surface tendencies.At projection matrix generation stage, we find the existence of Biased-Assignment and Ambiguous-Locality issues in the original pipeline. Therefore, we propose to 1) adopt the Kullback-Leibler Loss to ensure no missing important pixel features, which can be viewed as hard pixel mining process; 2) connect regions that are close to each other in the Euclidean space as well as in the semantic space with larger edge weights so that location informations can been considered. Extensive experiments on two public datasets, NYU-DepthV2 and SUN RGB-D, have shown that our approach can consistently boost the performance of RGB-D semantic segmentation task.
arxiv情報
| 著者 | Xiaoyan Jiang,Bohan Wang,Xinlong Wan,Shanshan Chen,Hamido Fujita,Hanan Abd. Al Juaid |
| 発行日 | 2025-05-02 15:52:03+00:00 |
| arxivサイト | arxiv_id(pdf) |