SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

要約

既存のクエリベースの3Dエンドツーエンドのビジュアルトラッカーは、追跡ごとのパラダイムを介して検出と追跡を統合しますが、これら2つの鶏と卵のタスクは、同じパラメーターを共有するときに最適化の困難に遭遇します。
私たちの調査結果は、これらの困難が、自己触媒メカニズムに対する2つの固有の制約、つまりオブジェクトクエリの過剰な複製とトラッククエリの自己中心的な注意により発生することを明らかにしています。
対照的に、自己関節メカニズムを削除することは、トラッカーの回帰予測に最小限に影響するだけでなく、より潜在的な候補ボックスを生成する傾向があります。
これらの分析に基づいて、検出と追跡のためにマルチタスク学習を共同設定するために設計された新しいプラグアンドプレイの相乗的トレーニング戦略であるSynclを提示します。
具体的には、複数のオブジェクトクエリを使用してトラッククエリのターゲットと一致する重量共有クロスアテンションベースのデコーダーのタスク固有のハイブリッドマッチングモジュールを提案して、自己攻撃メカニズムを見落としている有望な候補を活用します。
1対多くのマッチングの最適な候補を柔軟に選択するために、モデルトレーニングステータスによって制御される動的クエリフィルタリングモジュールも設計します。
さらに、トラッククエリの自己中心的な注意の障壁を突破し、検出と追跡の間のギャップを効果的に埋めるために、インスタンスを意識した対照的な学習を紹介します。
追加の推論コストなしでは、Synclは一貫してさまざまなベンチマークの改善を提供し、Nuscenesデータセットで58.9%\%$ amotaで最先端のパフォーマンスを達成します。
コードと生の結果は公開されます。

要約(オリジナル)

While existing query-based 3D end-to-end visual trackers integrate detection and tracking via the tracking-by-attention paradigm, these two chicken-and-egg tasks encounter optimization difficulties when sharing the same parameters. Our findings reveal that these difficulties arise due to two inherent constraints on the self-attention mechanism, i.e., over-deduplication for object queries and self-centric attention for track queries. In contrast, removing the self-attention mechanism not only minimally impacts regression predictions of the tracker, but also tends to generate more latent candidate boxes. Based on these analyses, we present SynCL, a novel plug-and-play synergistic training strategy designed to co-facilitate multi-task learning for detection and tracking. Specifically, we propose a Task-specific Hybrid Matching module for a weight-shared cross-attention-based decoder that matches the targets of track queries with multiple object queries to exploit promising candidates overlooked by the self-attention mechanism. To flexibly select optimal candidates for the one-to-many matching, we also design a Dynamic Query Filtering module controlled by model training status. Moreover, we introduce Instance-aware Contrastive Learning to break through the barrier of self-centric attention for track queries, effectively bridging the gap between detection and tracking. Without additional inference costs, SynCL consistently delivers improvements in various benchmarks and achieves state-of-the-art performance with $58.9\%$ AMOTA on the nuScenes dataset. Code and raw results will be publicly available.

arxiv情報

著者 Shubo Lin,Yutong Kou,Zirui Wu,Shaoru Wang,Bing Li,Weiming Hu,Jin Gao
発行日 2025-05-16 13:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク