要約
3D マルチオブジェクト トラッキング (MOT) のクエリベースのアプローチの多くは、トラッキング バイ アテンション パラダイムを採用しており、アイデンティティ一貫性のある検出にはトラック クエリを、アイデンティティに依存しないトラック生成にはオブジェクト クエリを利用します。
ただし、Tracking-by-Atention では、検出タスクと追跡タスクの両方に対して 1 つの埋め込みに検出クエリと追跡クエリが絡み合うため、最適とは言えません。
他のアプローチは検出による追跡パラダイムに似ており、分離された追跡クエリとその後の関連付けを使用してオブジェクトを検出します。
ただし、これらの方法は、検出タスクと関連付けタスクの間の相乗効果を活用しません。
両方のパラダイムの長所を組み合わせて、マルチビュー カメラからの 3D MOT のための新しいエンドツーエンド フレームワークである ADA-Track++ を紹介します。
外観と幾何学的特徴を活用した、エッジ拡張クロスアテンションに基づく学習可能なデータ関連付けモジュールを導入します。
また、この注意ベースの関連付けモジュールで補助トークンを提案します。これは、注意の正規化によって引き起こされる誤った関連付けターゲットに対する不釣り合いに高い注意を軽減するのに役立ちます。
さらに、この関連付けモジュールを DETR ベースの 3D 検出器のデコーダ層に統合し、検出のための DETR のようなクエリから画像へのクロス アテンションとデータ関連付けのためのクエリからクエリへのクロス アテンションを同時に可能にします。
これらのデコーダ層を積み重ねることにより、クエリは検出タスクと関連付けタスクに対して交互に洗練され、タスクの依存関係を効果的に利用します。
nuScenes データセットで私たちの方法を評価し、前の 2 つのパラダイムと比較して私たちのアプローチの利点を示します。
要約(オリジナル)
Many query-based approaches for 3D Multi-Object Tracking (MOT) adopt the tracking-by-attention paradigm, utilizing track queries for identity-consistent detection and object queries for identity-agnostic track spawning. Tracking-by-attention, however, entangles detection and tracking queries in one embedding for both the detection and tracking task, which is sub-optimal. Other approaches resemble the tracking-by-detection paradigm and detect objects using decoupled track and detection queries followed by a subsequent association. These methods, however, do not leverage synergies between the detection and association task. Combining the strengths of both paradigms, we introduce ADA-Track++, a novel end-to-end framework for 3D MOT from multi-view cameras. We introduce a learnable data association module based on edge-augmented cross-attention, leveraging appearance and geometric features. We also propose an auxiliary token in this attention-based association module, which helps mitigate disproportionately high attention to incorrect association targets caused by attention normalization. Furthermore, we integrate this association module into the decoder layer of a DETR-based 3D detector, enabling simultaneous DETR-like query-to-image cross-attention for detection and query-to-query cross-attention for data association. By stacking these decoder layers, queries are refined for the detection and association task alternately, effectively harnessing the task dependencies. We evaluate our method on the nuScenes dataset and demonstrate the advantage of our approach compared to the two previous paradigms.
arxiv情報
著者 | Shuxiao Ding,Lukas Schneider,Marius Cordts,Juergen Gall |
発行日 | 2024-12-13 15:22:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google