RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception

要約

同じ時空間シーン内で複数の自動運転 3D 認識タスクを同時に処理することは、特に従来のマルチタスク学習アプローチを使用する場合のタスク間の計算効率と機能競合により、重大な課題を引き起こします。
この論文は、3D オブジェクト検出や 3D 車線検出などのさまざまな認識タスクの表現を単一のフレームワーク内で調和させる、新しい統一表現 RepVF を提案することでこれらの問題に対処します。
RepVF は、ベクトル フィールドを通じてシーン内のさまざまなターゲットの構造を特徴付け、計算の冗長性と機能の競合を大幅に削減するシングルヘッドのマルチタスク学習モデルを可能にします。
RepVF に基づいて、タスク間およびタスク内の両方の関係を暗黙的にモデル化するクエリの階層構造を利用することで、さまざまなタスク間の固有の接続を活用するように設計されたネットワークである RFTR を導入します。
このアプローチにより、タスク固有のヘッドとパラメーターの必要性がなくなり、従来のマルチタスク学習パラダイムに固有の矛盾が根本的に軽減されます。
OpenLane データセットのラベルと Waymo Open データセットを組み合わせて、アプローチを検証します。
私たちの研究は、自動運転におけるマルチタスク認識の効率と有効性の大幅な進歩を示し、複数の 3D 認識タスクを同期的かつ並行して処理することに関する新しい視点を提供します。
コードは https://github.com/jbji/RepVF から入手できます。

要約(オリジナル)

Concurrent processing of multiple autonomous driving 3D perception tasks within the same spatiotemporal scene poses a significant challenge, in particular due to the computational inefficiencies and feature competition between tasks when using traditional multi-task learning approaches. This paper addresses these issues by proposing a novel unified representation, RepVF, which harmonizes the representation of various perception tasks such as 3D object detection and 3D lane detection within a single framework. RepVF characterizes the structure of different targets in the scene through a vector field, enabling a single-head, multi-task learning model that significantly reduces computational redundancy and feature competition. Building upon RepVF, we introduce RFTR, a network designed to exploit the inherent connections between different tasks by utilizing a hierarchical structure of queries that implicitly model the relationships both between and within tasks. This approach eliminates the need for task-specific heads and parameters, fundamentally reducing the conflicts inherent in traditional multi-task learning paradigms. We validate our approach by combining labels from the OpenLane dataset with the Waymo Open dataset. Our work presents a significant advancement in the efficiency and effectiveness of multi-task perception in autonomous driving, offering a new perspective on handling multiple 3D perception tasks synchronously and in parallel. The code will be available at: https://github.com/jbji/RepVF

arxiv情報

著者 Chunliang Li,Wencheng Han,Junbo Yin,Sanyuan Zhao,Jianbing Shen
発行日 2024-07-15 16:25:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク