TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework

要約

セマンティック セグメンテーションとステレオ マッチングは、それぞれ人間の脳の腹側の流れと背側の流れに似ており、自動運転認識システムの 2 つの重要なコンポーネントです。
個別のネットワークを使用してこれら 2 つのタスクに対処することは、特に最近の大規模ビジョン モデルと身体化された人工知能の進歩により、コンピューター ビジョン アルゴリズムの開発における主流の方向性ではなくなりました。
トレンドは、共同学習フレームワーク内でそれらを組み合わせる方向に移行しており、特に 2 つのタスク間の機能共有が強調されています。
この研究の主な貢献は、セマンティック セグメンテーションとステレオ マッチングの間の結合を包括的に強化することにあります。
具体的には、この研究では 3 つの新規性が導入されています: (1) 密結合、ゲート機能融合戦略、(2) 階層的な深い監視戦略、および (3) 結合強化損失関数。
これらの技術的貢献を組み合わせて使用​​することで、セマンティック セグメンテーションとステレオ マッチングに同時に取り組む最先端の共同学習フレームワークである TiCoSS が誕生しました。
KITTI および vKITTI2 データセットに関する広範な実験と、定性的および定量的な分析を通じて、開発した戦略と損失関数の有効性を検証し、mIoU が 9% 以上顕著に増加するという、従来技術と比較して優れたパフォーマンスを実証しました。
私たちのソース コードは、公開と同時に mias.group/TiCoSS で公開されます。

要約(オリジナル)

Semantic segmentation and stereo matching, respectively analogous to the ventral and dorsal streams in our human brain, are two key components of autonomous driving perception systems. Addressing these two tasks with separate networks is no longer the mainstream direction in developing computer vision algorithms, particularly with the recent advances in large vision models and embodied artificial intelligence. The trend is shifting towards combining them within a joint learning framework, especially emphasizing feature sharing between the two tasks. The major contributions of this study lie in comprehensively tightening the coupling between semantic segmentation and stereo matching. Specifically, this study introduces three novelties: (1) a tightly coupled, gated feature fusion strategy, (2) a hierarchical deep supervision strategy, and (3) a coupling tightening loss function. The combined use of these technical contributions results in TiCoSS, a state-of-the-art joint learning framework that simultaneously tackles semantic segmentation and stereo matching. Through extensive experiments on the KITTI and vKITTI2 datasets, along with qualitative and quantitative analyses, we validate the effectiveness of our developed strategies and loss function, and demonstrate its superior performance compared to prior arts, with a notable increase in mIoU by over 9%. Our source code will be publicly available at mias.group/TiCoSS upon publication.

arxiv情報

著者 Guanfeng Tang,Zhiyuan Wu,Jiahang Li,Ping Zhong,Xieyuanli Chen,Huiming Lu,Rui Fan
発行日 2024-09-10 13:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク