STTracker: Spatio-Temporal Tracker for 3D Single Object Tracking

要約

点群を使用した 3D 単一オブジェクトの追跡は、3D コンピュータ ビジョンにおける重要なタスクです。
以前の方法では、通常、最後の 2 つのフレームを入力し、予測ボックスを使用して前のフレームのテンプレート点群と現在のフレームの検索エリア点群をそれぞれ取得し、その後、類似性ベースまたは動きベースの方法を使用して現在のボックスを予測します。
これらの方法は良好な追跡パフォーマンスを達成しましたが、追跡に重要なターゲットの履歴情報は無視されます。
この論文では、2 フレームの点群を入力するのと比較して、複数フレームの点群を入力してターゲットの時空間情報をエンコードし、ターゲットの運動情報を暗黙的に学習します。これにより、異なるフレーム間の相関関係を構築して、
現在のフレーム内のターゲットを効率的に追跡します。
一方、特徴融合に点特徴を直接使用するのではなく、まず点群特徴を多くのパッチに切り取り、次にスパース アテンション メカニズムを使用してパッチレベルの類似性をエンコードし、最後にマルチフレーム特徴を融合します。
広範な実験により、私たちの手法が、困難な大規模ベンチマーク (KITTI で 62.6%、NuScenes で 49.66%) で競争力のある結果を達成できることが示されています。

要約(オリジナル)

3D single object tracking with point clouds is a critical task in 3D computer vision. Previous methods usually input the last two frames and use the predicted box to get the template point cloud in previous frame and the search area point cloud in the current frame respectively, then use similarity-based or motion-based methods to predict the current box. Although these methods achieved good tracking performance, they ignore the historical information of the target, which is important for tracking. In this paper, compared to inputting two frames of point clouds, we input multi-frame of point clouds to encode the spatio-temporal information of the target and learn the motion information of the target implicitly, which could build the correlations among different frames to track the target in the current frame efficiently. Meanwhile, rather than directly using the point feature for feature fusion, we first crop the point cloud features into many patches and then use sparse attention mechanism to encode the patch-level similarity and finally fuse the multi-frame features. Extensive experiments show that our method achieves competitive results on challenging large-scale benchmarks (62.6% in KITTI and 49.66% in NuScenes).

arxiv情報

著者 Yubo Cui,Zhiheng Li,Zheng Fang
発行日 2023-06-30 07:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク