S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching for Autonomous Driving

要約

セマンティック セグメンテーションとステレオ マッチングは、自動運転用の 3D 環境認識システムの 2 つの重要なコンポーネントです。
それにもかかわらず、従来のアプローチでは、タスクごとに個別のモデルを使用して、これら 2 つの問題に独立して対処することがよくあります。
このアプローチは、現実のシナリオ、特に計算リソースが不足している場合、またはリアルタイム パフォーマンスが不可欠な場合に、実際的な制限を引き起こします。
そこで、この記事では、セマンティック セグメンテーションとステレオ マッチングを同時に実行するために開発された新しい共同学習フレームワークである S$^3$M-Net を紹介します。
具体的には、S$^3$M-Net は RGB 画像から抽出された特徴を両方のタスク間で共有し、その結果全体的なシーン理解能力が向上します。
この特徴共有プロセスは、共有特徴を効果的に意味空間に変換し、その後それらを符号化された視差特徴と融合する特徴融合適応(FFA)モジュールを使用して実現されます。
共同学習フレームワーク全体は、両方のタスクの構造的一貫性に重点を置く、新しい意味的一貫性ガイド型 (SCG) 損失を最小限に抑えることによってトレーニングされます。
vKITTI2 および KITTI データセットに対して行われた広範な実験結果は、私たちが提案する共同学習フレームワークの有効性と、他の最先端のシングルタスク ネットワークと比較して優れたパフォーマンスを示しています。
私たちのプロジェクトの Web ページは mias.group/S3M-Net からアクセスできます。

要約(オリジナル)

Semantic segmentation and stereo matching are two essential components of 3D environmental perception systems for autonomous driving. Nevertheless, conventional approaches often address these two problems independently, employing separate models for each task. This approach poses practical limitations in real-world scenarios, particularly when computational resources are scarce or real-time performance is imperative. Hence, in this article, we introduce S$^3$M-Net, a novel joint learning framework developed to perform semantic segmentation and stereo matching simultaneously. Specifically, S$^3$M-Net shares the features extracted from RGB images between both tasks, resulting in an improved overall scene understanding capability. This feature sharing process is realized using a feature fusion adaption (FFA) module, which effectively transforms the shared features into semantic space and subsequently fuses them with the encoded disparity features. The entire joint learning framework is trained by minimizing a novel semantic consistency-guided (SCG) loss, which places emphasis on the structural consistency in both tasks. Extensive experimental results conducted on the vKITTI2 and KITTI datasets demonstrate the effectiveness of our proposed joint learning framework and its superior performance compared to other state-of-the-art single-task networks. Our project webpage is accessible at mias.group/S3M-Net.

arxiv情報

著者 Zhiyuan Wu,Yi Feng,Chuang-Wei Liu,Fisher Yu,Qijun Chen,Rui Fan
発行日 2024-01-29 02:07:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク