Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation

要約

タイトル:Cityscapes-3DにおけるJoint 2D-3D Multi-Task Learning:3D Detection、Segmentation、およびDepth Estimation

要約:

– TaskPrompterは、Cityscapes-3Dに基づいた新しいjoint 2D-3D multi-task learning benchmarkでの実装を紹介する。
– TaskPrompterは、先行研究でこれらの学習目的を別々のネットワークモジュールに分ける代わりに、タスクジェネリックな表現、タスク固有の表現、およびクロスタスク相互作用の学習を統合する革新的なmulti-task prompting frameworkを提供する。
– この統合アプローチは、緻密な経験的構造設計の必要性を軽減し、全体的なモデル容量が同時に3つの目的を最適化するため、multi-task networkの表現学習能力を大幅に向上させる。
– TaskPrompterは、multi-task modelが逐次モノクル3D車両検出、意味的セグメンテーション、およびモノクル深度推定の予測を同時に生成する必要があるCityscapes-3Dデータセットに基づいた新しいmulti-taskベンチマークを紹介する。
– これらのタスクは、特に自動運転システムの開発において、ビジュアルシーンのJoint 2D-3D理解を実現するために必要である。
– この挑戦的なベンチマークで、multi-task modelは、シングルタスク最新技術手法と比較して強いパフォーマンスを発揮し、3D検出および深度推定の難易度の高いタスクで新しい最新技術手法を確立する。

要約(オリジナル)

This report serves as a supplementary document for TaskPrompter, detailing its implementation on a new joint 2D-3D multi-task learning benchmark based on Cityscapes-3D. TaskPrompter presents an innovative multi-task prompting framework that unifies the learning of (i) task-generic representations, (ii) task-specific representations, and (iii) cross-task interactions, as opposed to previous approaches that separate these learning objectives into different network modules. This unified approach not only reduces the need for meticulous empirical structure design but also significantly enhances the multi-task network’s representation learning capability, as the entire model capacity is devoted to optimizing the three objectives simultaneously. TaskPrompter introduces a new multi-task benchmark based on Cityscapes-3D dataset, which requires the multi-task model to concurrently generate predictions for monocular 3D vehicle detection, semantic segmentation, and monocular depth estimation. These tasks are essential for achieving a joint 2D-3D understanding of visual scenes, particularly in the development of autonomous driving systems. On this challenging benchmark, our multi-task model demonstrates strong performance compared to single-task state-of-the-art methods and establishes new state-of-the-art results on the challenging 3D detection and depth estimation tasks.

arxiv情報

著者 Hanrong Ye
発行日 2023-04-05 13:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク