要約
参照マルチオブジェクト追跡(RMOT)は、ビデオの自然言語表現によって指定されたターゲット軌道をローカライズすることを目的としています。
既存のRMOTメソッドは、主に2つのパラダイム、つまり1段階の戦略と2段階の戦略に従います。
前者は共同で紹介することで追跡を訓練しますが、かなりの計算オーバーヘッドに苦しんでいます。
後者は計算効率を向上させますが、そのクリップにインスパイアされたデュアルタワーアーキテクチャは、他の視覚/テキストのバックボーンとの互換性を制限し、将来のプルーフではありません。
これらの制限を克服するために、2つのコアコンポーネントを導入する2段階のRMOTの新しいエンコーダーデコーダーフレームワークであるCPANYを提案します。
(2)並列セマンティックサマリザー(PSS)は、セマンティックレベルで視覚的および言語的特徴を並列で解読し、参照スコアを生成します。
エンコーダーの固有の機能アラインメントを自己構築された統一セマンティックスペースに置き換えることにより、CPANYは任意の新しい視覚 /テキストエンコーダと柔軟な互換性を実現します。
一方、CPANYは、一度だけエンコードすることでコンテキスト情報を集約し、複数の式を並列に処理し、計算冗長性を大幅に削減します。
Refer-KittiおよびRefer-Kitti-V2データセットに関する広範な実験は、CPANYが多様なエンコーダーの組み合わせ全体でSOTAメソッドを上回ることを示しており、参照キッティ-V2の特定の7.77 \%のHOTA改善があります。
コードはまもなく利用可能になります。
要約(オリジナル)
Referring Multi-Object Tracking (RMOT) aims to localize target trajectories specified by natural language expressions in videos. Existing RMOT methods mainly follow two paradigms, namely, one-stage strategies and two-stage ones. The former jointly trains tracking with referring but suffers from substantial computational overhead. Although the latter improves computational efficiency, its CLIP-inspired dual-tower architecture restricts compatibility with other visual/text backbones and is not future-proof. To overcome these limitations, we propose CPAny, a novel encoder-decoder framework for two-stage RMOT, which introduces two core components: (1) a Contextual Visual Semantic Abstractor (CVSA) performs context-aware aggregation on visual backbone features and projects them into a unified semantic space; (2) a Parallel Semantic Summarizer (PSS) decodes the visual and linguistic features at the semantic level in parallel and generates referring scores. By replacing the inherent feature alignment of encoders with a self-constructed unified semantic space, CPAny achieves flexible compatibility with arbitrary emerging visual / text encoders. Meanwhile, CPAny aggregates contextual information by encoding only once and processes multiple expressions in parallel, significantly reducing computational redundancy. Extensive experiments on the Refer-KITTI and Refer-KITTI-V2 datasets show that CPAny outperforms SOTA methods across diverse encoder combinations, with a particular 7.77\% HOTA improvement on Refer-KITTI-V2. Code will be available soon.
arxiv情報
著者 | Weize Li,Yunhao Du,Qixiang Yin,Zhicheng Zhao,Fei Su,Daqi Liu |
発行日 | 2025-03-10 16:38:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google