要約
点群における 3D 単一オブジェクト追跡 (SOT) は、外観のばらつき、気が散る要因、および点群の密度の高さのため、依然として困難な問題です。
特に、自動運転シナリオでは、ターゲット オブジェクトは通常、連続するフレーム間で空間的隣接性を維持し、主に水平方向に移動します。
この空間的連続性は、ターゲットの位置特定のための貴重な事前知識を提供します。
しかし、既存のトラッカーは点単位の表現を使用することが多く、そのような表現の形式が不規則であるため、この知識を効率的に利用するのに苦労しています。
したがって、空間的な対応を確立するには、精緻な設計と複数のサブタスクの解決が必要になります。
このペーパーでは、3D SOT 用のシンプルかつ強力なベースライン フレームワークである BEVTrack を紹介します。
連続した点群を一般的な鳥瞰図表現に変換した後、BEVTrack は本質的に空間的近接性をエンコードし、単純な要素ごとの操作と畳み込みレイヤーを介して追跡のためのモーション キューを適切にキャプチャします。
さらに、さまざまなサイズと移動パターンを持つオブジェクトをより適切に処理するために、BEVTrack は、以前の作品のように固定されたラプラシアンまたはガウスの仮定を行うのではなく、基礎となる動きの分布を直接学習します。
BEVTrack は、付加機能なしで、122 FPS という高い推論速度を維持しながら、KITTI および NuScenes データセットで最先端のパフォーマンスを実現します。
コードは https://github.com/xmm-prio/BEVTrack でリリースされます。
要約(オリジナル)
3D single object tracking (SOT) in point clouds is still a challenging problem due to appearance variation, distractors, and high sparsity of point clouds. Notably, in autonomous driving scenarios, the target object typically maintains spatial adjacency across consecutive frames, predominantly moving horizontally. This spatial continuity offers valuable prior knowledge for target localization. However, existing trackers, which often employ point-wise representations, struggle to efficiently utilize this knowledge owing to the irregular format of such representations. Consequently, they require elaborate designs and solving multiple subtasks to establish spatial correspondence. In this paper, we introduce BEVTrack, a simple yet strong baseline framework for 3D SOT. After converting consecutive point clouds into the common Bird’s-Eye View representation, BEVTrack inherently encodes spatial proximity and adeptly captures motion cues for tracking via a simple element-wise operation and convolutional layers. Additionally, to better deal with objects having diverse sizes and moving patterns, BEVTrack directly learns the underlying motion distribution rather than making a fixed Laplacian or Gaussian assumption as in previous works. Without bells and whistles, BEVTrack achieves state-of-the-art performance on KITTI and NuScenes datasets while maintaining a high inference speed of 122 FPS. The code will be released at https://github.com/xmm-prio/BEVTrack.
arxiv情報
著者 | Yuxiang Yang,Yingqi Deng,Jiahao Nie,Jing Zhang |
発行日 | 2023-09-12 09:38:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google