MGNiceNet: Unified Monocular Geometric Scene Understanding

要約

単眼の幾何学的シーンの理解は、パノプティックセグメンテーションと自己監視の深さ推定を組み合わせて、自律型車両でのリアルタイムアプリケーションに焦点を当てています。
Panopticセグメンテーションと自己補助深度推定にリンクされたカーネル定式化を使用する統一されたアプローチであるMgnicenetを紹介します。
MGNICENETは、最先端のリアルタイムパノプティックセグメンテーション法RT-K-NETに基づいており、パノプティックセグメンテーションと自己補助的な単眼深度推定の両方をカバーするためにアーキテクチャを拡張します。
この目的のために、深さ予測のためにパノプティックパスからの情報を明示的に使用する密接に結合した自己監視深度推定予測子を導入します。
さらに、ビデオパノプティックセグメンテーションの注釈に依存せずに深さ推定を改善するためのパノプティック誘導モーションマスキング法を導入します。
2つの一般的な自動運転データセット、CityscapesとKittiでの方法を評価します。
私たちのモデルは、他のリアルタイムの方法と比較して最先端の結果を示し、計算的により要求の厳しい方法とのギャップを閉じます。
ソースコードと訓練されたモデルは、https://github.com/markusschoen/mgnicenetで入手できます。

要約(オリジナル)

Monocular geometric scene understanding combines panoptic segmentation and self-supervised depth estimation, focusing on real-time application in autonomous vehicles. We introduce MGNiceNet, a unified approach that uses a linked kernel formulation for panoptic segmentation and self-supervised depth estimation. MGNiceNet is based on the state-of-the-art real-time panoptic segmentation method RT-K-Net and extends the architecture to cover both panoptic segmentation and self-supervised monocular depth estimation. To this end, we introduce a tightly coupled self-supervised depth estimation predictor that explicitly uses information from the panoptic path for depth prediction. Furthermore, we introduce a panoptic-guided motion masking method to improve depth estimation without relying on video panoptic segmentation annotations. We evaluate our method on two popular autonomous driving datasets, Cityscapes and KITTI. Our model shows state-of-the-art results compared to other real-time methods and closes the gap to computationally more demanding methods. Source code and trained models are available at https://github.com/markusschoen/MGNiceNet.

arxiv情報

著者 Markus Schön,Michael Buchholz,Klaus Dietmayer
発行日 2025-03-10 15:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク