要約
マルチオブジェクト トラッキング (MOT) は、ビデオ フレーム全体のオブジェクトのバウンディング ボックスと ID を推定することを目的としています。
検出ボックスは、2D および 3D MOT の両方の基礎として機能します。
検出スコアの必然的な変化は、追跡後にオブジェクトが失われることにつながります。
低スコアの検出ボックスで真のオブジェクトをマイニングするための階層的なデータ関連付け戦略を提案します。これにより、オブジェクトの欠落や断片化された軌跡の問題が軽減されます。
シンプルで汎用的なデータ関連付け戦略は、2D 設定と 3D 設定の両方で効果を発揮します。
3D シナリオでは、トラッカーがワールド座標でオブジェクトの速度を予測する方がはるかに簡単です。
検出された速度をカルマン フィルターと組み合わせて、突然の動きと短期間の消失の問題に対処する補完的な動き予測戦略を提案します。
ByteTrackV2 は、カメラ (56.4% AMOTA) と LiDAR (70.1% AMOTA) モダリティの両方で nuScenes 3D MOT リーダーボードをリードしています。
さらに、ノンパラメトリックであり、さまざまな検出器と統合できるため、実際のアプリケーションで魅力的です。
ソース コードは https://github.com/ifzhang/ByteTrack-V2 で公開されています。
要約(オリジナル)
Multi-object tracking (MOT) aims at estimating bounding boxes and identities of objects across video frames. Detection boxes serve as the basis of both 2D and 3D MOT. The inevitable changing of detection scores leads to object missing after tracking. We propose a hierarchical data association strategy to mine the true objects in low-score detection boxes, which alleviates the problems of object missing and fragmented trajectories. The simple and generic data association strategy shows effectiveness under both 2D and 3D settings. In 3D scenarios, it is much easier for the tracker to predict object velocities in the world coordinate. We propose a complementary motion prediction strategy that incorporates the detected velocities with a Kalman filter to address the problem of abrupt motion and short-term disappearing. ByteTrackV2 leads the nuScenes 3D MOT leaderboard in both camera (56.4% AMOTA) and LiDAR (70.1% AMOTA) modalities. Furthermore, it is nonparametric and can be integrated with various detectors, making it appealing in real applications. The source code is released at https://github.com/ifzhang/ByteTrack-V2.
arxiv情報
著者 | Yifu Zhang,Xinggang Wang,Xiaoqing Ye,Wei Zhang,Jincheng Lu,Xiao Tan,Errui Ding,Peize Sun,Jingdong Wang |
発行日 | 2023-03-27 15:35:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google