Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection, Segmentation, and Depth Estimation

要約

タイトル:Cityscapes-3Dにおける2D-3Dマルチタスク学習:3D検出、セグメンテーション、深度推定
要約:
– TaskPrompterを新しい2D-3Dマルチタスク学習ベンチマークであるCityscapes-3Dに実装することを説明する補足文書となる。
– TaskPrompterは、(i)タスク一般的表現、(ii)タスク固有表現、および(iii)クロスタスクの相互作用の学習を統一し、それらを異なるネットワークモジュールに分離する従来のアプローチと対照的に、画期的なマルチタスクプロンプティングフレームワークを提供する。この統合的なアプローチは、緻密な経験的構造設計の必要性を減らすだけでなく、3つの目的を同時に最適化するため、マルチタスクネットワークの表現学習能力を大幅に向上させる。
– TaskPrompterは、モノクル3D車両検出、セマンティックセグメンテーション、およびモノクル深度推定の予測を同時に生成することをマルチタスクモデルに要求するCityscapes-3Dデータセットをベースとした新しいマルチタスクベンチマークを紹介する。これらのタスクは、特に自律走行システムの開発において、視覚シーンの2D-3D理解を達成するために重要である。
– この厳しいベンチマークでは、マルチタスクモデルは、シングルタスクの最新の状態-of-the-artメソッドと比較して強力なパフォーマンスを示し、チャレンジングな3D検出と深度推定タスクにおいて新たな最新技術を確立する。

要約(オリジナル)

This report serves as a supplementary document for TaskPrompter, detailing its implementation on a new joint 2D-3D multi-task learning benchmark based on Cityscapes-3D. TaskPrompter presents an innovative multi-task prompting framework that unifies the learning of (i) task-generic representations, (ii) task-specific representations, and (iii) cross-task interactions, as opposed to previous approaches that separate these learning objectives into different network modules. This unified approach not only reduces the need for meticulous empirical structure design but also significantly enhances the multi-task network’s representation learning capability, as the entire model capacity is devoted to optimizing the three objectives simultaneously. TaskPrompter introduces a new multi-task benchmark based on Cityscapes-3D dataset, which requires the multi-task model to concurrently generate predictions for monocular 3D vehicle detection, semantic segmentation, and monocular depth estimation. These tasks are essential for achieving a joint 2D-3D understanding of visual scenes, particularly in the development of autonomous driving systems. On this challenging benchmark, our multi-task model demonstrates strong performance compared to single-task state-of-the-art methods and establishes new state-of-the-art results on the challenging 3D detection and depth estimation tasks.

arxiv情報

著者 Hanrong Ye
発行日 2023-04-03 13:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク