RoadFormer+: Delivering RGB-X Scene Parsing through Scale-Aware Information Decoupling and Advanced Heterogeneous Feature Fusion

要約

タスク固有のデータ融合ネットワークは、都市シーンの解析において多大な成果を上げています。
これらのネットワークの中で、私たちが最近提案した RoadFormer は、RGB 画像と表面法線マップから異種特徴を抽出し、アテンション メカニズムを通じてこれらの特徴を融合することに成功し、RGB 法線道路シーン解析における説得力のある有効性を実証しています。
ただし、他のタイプ/ソースのデータを処理したり、より汎用的な全カテゴリのシーン解析タスクを実行したりすると、パフォーマンスが大幅に低下します。
これらの制限を克服するために、この研究では、RGB-X データを効果的に融合できる、効率的で堅牢かつ適応性のあるモデルである RoadFormer+ を導入します。ここで、「X」は、深さ、熱、表面法線、データの追加のタイプ/モダリティを表します。
そして二極化。
具体的には、異種の特徴を抽出し、それらをグローバルコンポーネントとローカルコンポーネントに分離するための、新しいハイブリッド特徴デカップリングエンコーダーを提案します。
これらの分離された特徴は、デュアルブランチ マルチスケール異種特徴融合ブロックを通じて融合されます。このブロックは、並列トランスフォーマー アテンションと畳み込みニューラル ネットワーク モジュールを使用して、異なるスケールと受容野にわたるマルチスケール特徴をマージします。
その後、融合された特徴がデコーダに供給されて、最終的な意味予測が生成されます。
特に、私たちが提案する RoadFormer+ は、KITTI Road ベンチマークで 1 位にランクされ、Cityscapes、MFNet、FMB、および ZJU データセットの結合に対する平均交差点で最先端のパフォーマンスを達成しています。
さらに、RoadFormer と比較して、学習可能なパラメータの数が 65% 削減されます。
私たちのソース コードは mias.group/RoadFormerPlus で公開されます。

要約(オリジナル)

Task-specific data-fusion networks have marked considerable achievements in urban scene parsing. Among these networks, our recently proposed RoadFormer successfully extracts heterogeneous features from RGB images and surface normal maps and fuses these features through attention mechanisms, demonstrating compelling efficacy in RGB-Normal road scene parsing. However, its performance significantly deteriorates when handling other types/sources of data or performing more universal, all-category scene parsing tasks. To overcome these limitations, this study introduces RoadFormer+, an efficient, robust, and adaptable model capable of effectively fusing RGB-X data, where “X”, represents additional types/modalities of data such as depth, thermal, surface normal, and polarization. Specifically, we propose a novel hybrid feature decoupling encoder to extract heterogeneous features and decouple them into global and local components. These decoupled features are then fused through a dual-branch multi-scale heterogeneous feature fusion block, which employs parallel Transformer attentions and convolutional neural network modules to merge multi-scale features across different scales and receptive fields. The fused features are subsequently fed into a decoder to generate the final semantic predictions. Notably, our proposed RoadFormer+ ranks first on the KITTI Road benchmark and achieves state-of-the-art performance in mean intersection over union on the Cityscapes, MFNet, FMB, and ZJU datasets. Moreover, it reduces the number of learnable parameters by 65\% compared to RoadFormer. Our source code will be publicly available at mias.group/RoadFormerPlus.

arxiv情報

著者 Jianxin Huang,Jiahang Li,Ning Jia,Yuxiang Sun,Chengju Liu,Qijun Chen,Rui Fan
発行日 2024-07-31 14:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク