CAMO-MOT: Combined Appearance-Motion Optimization for 3D Multi-Object Tracking with Camera-LiDAR Fusion

要約

3Dマルチオブジェクト・トラッキング(MOT)は、連続的な動的検出の際に一貫性を確保し、その後の自律走行における運動計画やナビゲーションタスクに貢献します。しかし、カメラベースの手法はオクルージョンの場合に苦しみ、LiDARベースの手法では物体の不規則な動きを正確に追跡することが困難な場合があります。いくつかのフュージョン手法はうまく機能しますが、オクルージョン下の外観特徴の信頼できない問題を考慮していません。同時に、誤検出の問題もトラッキングに大きく影響する。そこで、我々は、カメラとLiDARの両方のデータを使用し、オクルージョンと誤検出によるトラッキングの失敗を大幅に減らす、Combined Appearance-Motion Optimization(CAMO-MOT)に基づく新しいカメラ-LiDARフュージョン3D MOTフレームワークを提案します。オクルージョン問題に対しては、最適な物体外観特徴を効率的に複数回選択するオクルージョンヘッドを初めて提案し、オクルージョンの影響を低減しています。トラッキングにおける誤検出の影響を低減するために、信頼度スコアに基づく動きコスト行列を設計し、3次元空間における位置決めと物体予測精度を向上させる。既存のマルチオブジェクト追跡手法は単一のカテゴリしか考慮しないため、マルチカテゴリ・シーンにおけるマルチオブジェクト追跡を実装するために、マルチカテゴリ・ロスを構築することも提案する。KITTIとnuScenesのトラッキングベンチマークを用いて、一連の検証実験を行う。提案手法は,KITTIテストデータセットにおいて,マルチモーダルMOT手法の中で最も低いIDS(Car: 23, Pedestrian: 137)を達成し,最先端の性能を実現する.また,テストデータセットnuScenesにおいて,提案手法は75.3%のAMOTAを獲得し,全アルゴリズムの中で最も高い性能を達成した.

要約(オリジナル)

3D Multi-object tracking (MOT) ensures consistency during continuous dynamic detection, conducive to subsequent motion planning and navigation tasks in autonomous driving. However, camera-based methods suffer in the case of occlusions and it can be challenging to accurately track the irregular motion of objects for LiDAR-based methods. Some fusion methods work well but do not consider the untrustworthy issue of appearance features under occlusion. At the same time, the false detection problem also significantly affects tracking. As such, we propose a novel camera-LiDAR fusion 3D MOT framework based on the Combined Appearance-Motion Optimization (CAMO-MOT), which uses both camera and LiDAR data and significantly reduces tracking failures caused by occlusion and false detection. For occlusion problems, we are the first to propose an occlusion head to select the best object appearance features multiple times effectively, reducing the influence of occlusions. To decrease the impact of false detection in tracking, we design a motion cost matrix based on confidence scores which improve the positioning and object prediction accuracy in 3D space. As existing multi-object tracking methods only consider a single category, we also propose to build a multi-category loss to implement multi-object tracking in multi-category scenes. A series of validation experiments are conducted on the KITTI and nuScenes tracking benchmarks. Our proposed method achieves state-of-the-art performance and the lowest identity switches (IDS) value (23 for Car and 137 for Pedestrian) among all multi-modal MOT methods on the KITTI test dataset. And our proposed method achieves state-of-the-art performance among all algorithms on the nuScenes test dataset with 75.3% AMOTA.

arxiv情報

著者 Li Wang,Xinyu Zhang,Wenyuan Qin,Xiaoyu Li,Lei Yang,Zhiwei Li,Lei Zhu,Hong Wang,Jun Li,Huaping Liu
発行日 2022-09-07 02:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク