要約
3D 環境を意味的に理解することは、複数のコンピューター ビジョン タスクが関与する自動運転アプリケーションにおいて極めて重要です。
マルチタスク モデルは、特定のシーンに対してさまざまなタイプの出力を提供し、計算コストを低く抑えながら、より総合的な表現を生成します。
RGB画像とスパース深度マップを使用したパノプティックセグメンテーションと深度補完のためのマルチタスクモデルを提案します。
私たちのモデルは、完全に密な深度マップを正常に予測し、すべての入力フレームに対してセマンティック セグメンテーション、インスタンス セグメンテーション、およびパノプティック セグメンテーションを実行します。
仮想 KITTI 2 データセットに対して広範な実験が行われ、このモデルが計算コストを大幅に増加させることなく、高精度のパフォーマンスを維持しながら複数のタスクを解決できることが実証されました。
コードは https://github.com/juanb09111/PanDepth.git で入手できます。
要約(オリジナル)
Understanding 3D environments semantically is pivotal in autonomous driving applications where multiple computer vision tasks are involved. Multi-task models provide different types of outputs for a given scene, yielding a more holistic representation while keeping the computational cost low. We propose a multi-task model for panoptic segmentation and depth completion using RGB images and sparse depth maps. Our model successfully predicts fully dense depth maps and performs semantic segmentation, instance segmentation, and panoptic segmentation for every input frame. Extensive experiments were done on the Virtual KITTI 2 dataset and we demonstrate that our model solves multiple tasks, without a significant increase in computational cost, while keeping high accuracy performance. Code is available at https://github.com/juanb09111/PanDepth.git
arxiv情報
著者 | Juan Lagos,Esa Rahtu |
発行日 | 2024-03-06 12:42:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google