要約
インテリジェント輸送知覚システムにおけるマルチソース情報融合の重要なアプリケーションとして、マルチオブジェクト追跡(RMOT)を参照するには、言語参照に基づいてビデオシーケンスで特定のオブジェクトをローカライズおよび追跡することが含まれます。
ただし、既存のRMOTアプローチは、言語の説明を全体的な埋め込みとして扱い、言語表現に含まれる豊富なセマンティック情報を視覚的な特徴と効果的に統合するのに苦労することがよくあります。
この制限は、静的オブジェクト属性と空間モーション情報の両方を包括的に理解する必要がある複雑なシーンで特に明らかです。
この論文では、これらの課題に対処するマルチオブジェクト追跡(CDRMT)フレームワークを参照するための認知的解体を提案します。
人間の視覚処理システムから「What」と「Where」経路をRMOTタスクに適応させます。
具体的には、我々のフレームワークは3つの共同コンポーネントで構成されています。(1)双方向インタラクティブフュージョンモジュールは、モダリティ固有の特性を保存しながら、最初にクロスモーダル接続を確立します。
(2)この基盤の上に構築するプログレッシブセマンティック分解クエリ学習メカニズムは、補完的な情報をオブジェクトクエリに階層的に注入し、粗から微調整された意味レベルから微細な意味レベルからオブジェクトの理解を徐々に改良します。
(3)最後に、構造コンセンサス制約により、視覚的特徴と言語の説明の間の双方向の意味的一貫性が強制され、追跡されたオブジェクトが参照表現を忠実に反映するようにします。
さまざまなベンチマークデータセットでの広範な実験は、CDRMTが最先端の方法よりも大幅な改善を達成し、リファレンスキッティのHOTAスコアが6.0%、Refer-Kitti-V2で3.2%であることを示しています。
私たちのアプローチは、最先端の最先端をRMOTで進め、同時にマルチソース情報融合に関する新しい洞察を提供します。
要約(オリジナル)
As a significant application of multi-source information fusion in intelligent transportation perception systems, Referring Multi-Object Tracking (RMOT) involves localizing and tracking specific objects in video sequences based on language references. However, existing RMOT approaches often treat language descriptions as holistic embeddings and struggle to effectively integrate the rich semantic information contained in language expressions with visual features. This limitation is especially apparent in complex scenes requiring comprehensive understanding of both static object attributes and spatial motion information. In this paper, we propose a Cognitive Disentanglement for Referring Multi-Object Tracking (CDRMT) framework that addresses these challenges. It adapts the ‘what’ and ‘where’ pathways from human visual processing system to RMOT tasks. Specifically, our framework comprises three collaborative components: (1)The Bidirectional Interactive Fusion module first establishes cross-modal connections while preserving modality-specific characteristics; (2) Building upon this foundation, the Progressive Semantic-Decoupled Query Learning mechanism hierarchically injects complementary information into object queries, progressively refining object understanding from coarse to fine-grained semantic levels; (3) Finally, the Structural Consensus Constraint enforces bidirectional semantic consistency between visual features and language descriptions, ensuring that tracked objects faithfully reflect the referring expression. Extensive experiments on different benchmark datasets demonstrate that CDRMT achieves substantial improvements over state-of-the-art methods, with average gains of 6.0% in HOTA score on Refer-KITTI and 3.2% on Refer-KITTI-V2. Our approach advances the state-of-the-art in RMOT while simultaneously providing new insights into multi-source information fusion.
arxiv情報
著者 | Shaofeng Liang,Runwei Guan,Wangwang Lian,Daizong Liu,Xiaolou Sun,Dongming Wu,Yutao Yue,Weiping Ding,Hui Xiong |
発行日 | 2025-03-14 15:21:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google