CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers

要約

画像セグメンテーションに基づくシーンの理解は、自動運転車にとって重要な要素です。
RGB 画像のピクセルごとのセマンティック セグメンテーションは、補助モダリティ (X モダリティ) からの有益な機能を活用することによって進めることができます。
この作業では、RGB-X セマンティック セグメンテーション用のトランスフォーマー ベースのクロスモーダル フュージョン フレームワークである CMX を提案します。
さまざまな補足や不確実性を含むさまざまなセンシング モダリティに一般化するには、包括的なクロスモーダル インタラクションを提供する必要があると考えています。
CMX は、RGB 画像と X モダリティから特徴を抽出する 2 つのストリームで構築されています。
各特徴抽出段階で、クロスモーダル特徴修正モジュール (CM-FRM) を設計し、空間およびチャネル単位の次元で、他のモダリティの特徴を組み合わせて現在のモダリティの特徴を調整します。
調整された機能ペアを使用して、Feature Fusion Module (FFM) をデプロイしてそれらを混合し、最終的なセマンティック予測を行います。
FFM はクロスアテンション メカニズムで構築されており、これにより長距離コンテキストの交換が可能になり、バイモーダル機能がグローバルに強化されます。
広範な実験により、CMX は多様なマルチモーダルの組み合わせに一般化され、5 つの RGB 深度ベンチマーク、RGB サーマル、RGB 偏光、および RGB-LiDAR データセットで最先端のパフォーマンスを達成することが示されています。
さらに、高密度と疎のデータ融合の一般化可能性を調査するために、EventScape データセットに基づいて RGB イベント セマンティック セグメンテーション ベンチマークを確立し、CMX が新しい最先端技術を設定します。
CMX のソース コードは、https://github.com/huaaaliu/RGBX_Semantic_Segmentation で公開されています。

要約(オリジナル)

Scene understanding based on image segmentation is a crucial component for autonomous vehicles. Pixel-wise semantic segmentation of RGB images can be advanced by exploiting informative features from the supplementary modality (X-modality). In this work, we propose CMX, a transformer-based cross-modal fusion framework for RGB-X semantic segmentation. To generalize to different sensing modalities encompassing various supplements and uncertainties, we consider that comprehensive cross-modal interactions should be provided. CMX is built with two streams to extract features from RGB images and the X-modality. In each feature extraction stage, we design a Cross-Modal Feature Rectification Module (CM-FRM) to calibrate the feature of the current modality by combining the feature from the other modality, in spatial- and channel-wise dimensions. With rectified feature pairs, we deploy a Feature Fusion Module (FFM) to mix them for the final semantic prediction. FFM is constructed with a cross-attention mechanism, which enables exchange of long-range contexts, enhancing bi-modal features globally. Extensive experiments show that CMX generalizes to diverse multi-modal combinations, achieving state-of-the-art performances on five RGB-Depth benchmarks, as well as RGB-Thermal, RGB-Polarization, and RGB-LiDAR datasets. Besides, to investigate the generalizability to dense-sparse data fusion, we establish an RGB-Event semantic segmentation benchmark based on the EventScape dataset, on which CMX sets the new state-of-the-art. The source code of CMX is publicly available at https://github.com/huaaaliu/RGBX_Semantic_Segmentation.

arxiv情報

著者 Jiaming Zhang,Huayao Liu,Kailun Yang,Xinxin Hu,Ruiping Liu,Rainer Stiefelhagen
発行日 2023-03-21 13:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク