CC-3DT: Panoramic 3D Object Tracking via Cross-Camera Fusion

要約

他の交通参加者の3D位置と軌道を任意の時間に追跡するために、現代の自律走行車は、車両の全周囲をカバーする複数のカメラを備えています。しかし、カメラベースの3Dオブジェクトトラッキング手法は、単一カメラセットアップの最適化を優先し、複数カメラセットアップではポストホックフュージョンに頼っているのが現状である。本論文では、CC-3DTと呼ばれるパノラマ3D物体追跡手法を提案し、時間的およびビュー横断的に物体軌道を関連付けてモデル化し、全体の追跡の一貫性を向上させる。特に、本手法では、関連付け前に複数のカメラからの3次元検出を融合することで、IDスイッチを大幅に削減し、モーションモデリングを改善することが可能である。大規模なドライビングデータセットを用いた実験により、関連付け前の融合は、ポストホックフュージョンよりも大きな改善マージンをもたらすことが示された。我々は、競争力のあるNuScenes 3Dトラッキングベンチマークにおいて、全てのカメラベースの手法の中で、平均多物体追跡精度(AMOTA)において12.6%の改善という新しい最先端を打ち立て、同じ3D検出器を用いたAMOTAにおいて既発表手法を6.5%上回る性能を示しました。

要約(オリジナル)

To track the 3D locations and trajectories of the other traffic participants at any given time, modern autonomous vehicles are equipped with multiple cameras that cover the vehicle’s full surroundings. Yet, camera-based 3D object tracking methods prioritize optimizing the single-camera setup and resort to post-hoc fusion in a multi-camera setup. In this paper, we propose a method for panoramic 3D object tracking, called CC-3DT, that associates and models object trajectories both temporally and across views, and improves the overall tracking consistency. In particular, our method fuses 3D detections from multiple cameras before association, reducing identity switches significantly and improving motion modeling. Our experiments on large-scale driving datasets show that fusion before association leads to a large margin of improvement over post-hoc fusion. We set a new state-of-the-art with 12.6% improvement in average multi-object tracking accuracy (AMOTA) among all camera-based methods on the competitive NuScenes 3D tracking benchmark, outperforming previously published methods by 6.5% in AMOTA with the same 3D detector.

arxiv情報

著者 Tobias Fischer,Yung-Hsu Yang,Suryansh Kumar,Min Sun,Fisher Yu
発行日 2022-12-02 15:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク