要約
インテリジェント輸送知覚システムにおけるマルチソース情報融合の重要なアプリケーションとして、マルチオブジェクト追跡(RMOT)を参照するには、言語参照に基づいてビデオシーケンスで特定のオブジェクトをローカライズおよび追跡することが含まれます。
ただし、既存のRMOTアプローチは、言語の説明を全体的な埋め込みとして扱い、言語表現に含まれる豊富なセマンティック情報を視覚的な特徴と効果的に統合するのに苦労することがよくあります。
この制限は、静的オブジェクト属性と空間モーション情報の両方を包括的に理解する必要がある複雑なシーンで特に明らかです。
この論文では、これらの課題に対処するマルチオブジェクト追跡(CDRMT)フレームワークを参照するための認知的解体を提案します。
「What」と「Where」経路を、人間の視覚処理システムからのタスクに適応させます。
具体的には、私たちのフレームワークは、最初にモダリティ固有の特性を維持しながら、クロスモーダル接続を確立します。
次に、言語の説明を解き放ち、それらをオブジェクトクエリに階層的に注入し、オブジェクトの理解を粗から微調整されたセマンティックレベルから洗練します。
最後に、視覚的な特徴に基づいて言語表現を再構築し、追跡されたオブジェクトが参照表現を忠実に反映するようにします。
さまざまなベンチマークデータセットでの広範な実験は、CDRMTが最先端の方法よりも大幅な改善を達成し、リファレンスキッティのHOTAスコアが6.0%、Refer-Kitti-V2で3.2%であることを示しています。
私たちのアプローチは、最先端の最先端をRMOTで進め、同時にマルチソース情報融合に関する新しい洞察を提供します。
要約(オリジナル)
As a significant application of multi-source information fusion in intelligent transportation perception systems, Referring Multi-Object Tracking (RMOT) involves localizing and tracking specific objects in video sequences based on language references. However, existing RMOT approaches often treat language descriptions as holistic embeddings and struggle to effectively integrate the rich semantic information contained in language expressions with visual features. This limitation is especially apparent in complex scenes requiring comprehensive understanding of both static object attributes and spatial motion information. In this paper, we propose a Cognitive Disentanglement for Referring Multi-Object Tracking (CDRMT) framework that addresses these challenges. It adapts the ‘what’ and ‘where’ pathways from the human visual processing system to RMOT tasks. Specifically, our framework first establishes cross-modal connections while preserving modality-specific characteristics. It then disentangles language descriptions and hierarchically injects them into object queries, refining object understanding from coarse to fine-grained semantic levels. Finally, we reconstruct language representations based on visual features, ensuring that tracked objects faithfully reflect the referring expression. Extensive experiments on different benchmark datasets demonstrate that CDRMT achieves substantial improvements over state-of-the-art methods, with average gains of 6.0% in HOTA score on Refer-KITTI and 3.2% on Refer-KITTI-V2. Our approach advances the state-of-the-art in RMOT while simultaneously providing new insights into multi-source information fusion.
arxiv情報
著者 | Shaofeng Liang,Runwei Guan,Wangwang Lian,Daizong Liu,Xiaolou Sun,Dongming Wu,Yutao Yue,Weiping Ding,Hui Xiong |
発行日 | 2025-04-15 15:35:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google