Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking

要約

我々は、多視点3D検出と追跡タスクのための、オブジェクトを意識した統一的な時間学習フレームワークを提案する。最近の多視点知覚手法における時間的融合戦略の有効性が、過去のフレームにおける注意散漫や背景の乱れによって弱められる可能性があることを観察した上で、多視点表現学習の頑健性を向上させるための循環的学習メカニズムを提案する。その本質は、モデル予測(例えば、物体の位置や大きさ)から画像やBEV特徴への情報を伝播するための後方ブリッジを構築することであり、これは規則的な推論で円を形成する。後方精緻化の後、過去のフレームにおけるターゲットと無関係な領域の応答は抑制され、将来のフレームを汚染するリスクを減少させ、時間的融合のオブジェクト認識能力を向上させる。我々はさらに、循環学習モデルに基づいて、追跡のためのオブジェクト認識連合戦略を調整する。循環学習モデルは、洗練された特徴を提供するだけでなく、トラックレットの関連付けのためのより細かい手がかり(例えばスケールレベル)を提供する。提案されたサイクル学習法と関連付けモジュールは、共に新規かつ統一的なマルチタスクフレームワークに貢献する。nuScenesを用いた実験により、提案モデルは、検出と追跡の両方の評価において、異なる設計のベースライン(すなわち、密なクエリに基づくBEVFormer、疎なクエリに基づくSparseBEV、LSSに基づくBEVDet4D)に対して一貫した性能向上を達成することが示される。

要約(オリジナル)

We propose a unified object-aware temporal learning framework for multi-view 3D detection and tracking tasks. Having observed that the efficacy of the temporal fusion strategy in recent multi-view perception methods may be weakened by distractors and background clutters in historical frames, we propose a cyclic learning mechanism to improve the robustness of multi-view representation learning. The essence is constructing a backward bridge to propagate information from model predictions (e.g., object locations and sizes) to image and BEV features, which forms a circle with regular inference. After backward refinement, the responses of target-irrelevant regions in historical frames would be suppressed, decreasing the risk of polluting future frames and improving the object awareness ability of temporal fusion. We further tailor an object-aware association strategy for tracking based on the cyclic learning model. The cyclic learning model not only provides refined features, but also delivers finer clues (e.g., scale level) for tracklet association. The proposed cycle learning method and association module together contribute a novel and unified multi-task framework. Experiments on nuScenes show that the proposed model achieves consistent performance gains over baselines of different designs (i.e., dense query-based BEVFormer, sparse query-based SparseBEV and LSS-based BEVDet4D) on both detection and tracking evaluation.

arxiv情報

著者 Mingzhe Guo,Zhipeng Zhang,Liping Jing,Yuan He,Ke Wang,Heng Fan
発行日 2024-07-03 16:10:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク