All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment

要約

現在主流のビジョン言語 (VL) 追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルの 3 つの部分で構成されています。
より良いパフォーマンスを追求するために、VL トラッキングの自然な手法は、カスタマイズされたより重いユニモーダル エンコーダーとマルチモーダル フュージョン モデルを採用することです。
効果的ではあるものの、既存の VL トラッカーは特徴抽出と特徴統合を分離しているため、抽出された特徴にはセマンティック ガイダンスが欠けており、複雑なシナリオ (類似の注意散漫や極端な照明など) におけるターゲット認識機能が制限されています。
この研究では、自然言語タスクとコンピューター ビジョン タスクの両方に対して統合アーキテクチャを備えた基礎モデルを探索する最近の成功に触発され、統合トランスフォーマー バックボーンを採用することで共同特徴抽出と相互作用を学習するオールインワン フレームワークを提案します。
具体的には、生のビジョン信号と言語信号を混合して言語を注入したビジョン トークンを生成し、それを連結してから統合バックボーン アーキテクチャに送り込みます。
このアプローチにより、統合バックボーンでの機能統合が実現し、慎重に設計された融合モジュールの必要性がなくなり、より効果的かつ効率的な VL 追跡フレームワークが実現します。
学習効率をさらに向上させるために、クロスモーダルおよびイントラモーダルの対比目標に基づいたマルチモーダル アライメント モジュールを導入し、統合されたオールインワン トランスフォーマー バックボーンのより合理的な表現を提供します。
OTB99-L、TNL2K、LaSOT、LaSOT$_{\rm Ext}$、および WebUAV-3M の 5 つのベンチマークに関する広範な実験により、VL 追跡に関する既存の最先端技術に対する提案されたトラッカーの優位性が実証されました。
コードは公開されます。

要約(オリジナル)

Current mainstream vision-language (VL) tracking framework consists of three parts, \ie a visual feature extractor, a language feature extractor, and a fusion model. To pursue better performance, a natural modus operandi for VL tracking is employing customized and heavier unimodal encoders, and multi-modal fusion models. Albeit effective, existing VL trackers separate feature extraction and feature integration, resulting in extracted features that lack semantic guidance and have limited target-aware capability in complex scenarios, \eg similar distractors and extreme illumination. In this work, inspired by the recent success of exploring foundation models with unified architecture for both natural language and computer vision tasks, we propose an All-in-One framework, which learns joint feature extraction and interaction by adopting a unified transformer backbone. Specifically, we mix raw vision and language signals to generate language-injected vision tokens, which we then concatenate before feeding into the unified backbone architecture. This approach achieves feature integration in a unified backbone, removing the need for carefully-designed fusion modules and resulting in a more effective and efficient VL tracking framework. To further improve the learning efficiency, we introduce a multi-modal alignment module based on cross-modal and intra-modal contrastive objectives, providing more reasonable representations for the unified All-in-One transformer backbone. Extensive experiments on five benchmarks, \ie OTB99-L, TNL2K, LaSOT, LaSOT$_{\rm Ext}$ and WebUAV-3M, demonstrate the superiority of the proposed tracker against existing state-of-the-arts on VL tracking. Codes will be made publicly available.

arxiv情報

著者 Chunhui Zhang,Xin Sun,Li Liu,Yiqian Yang,Qiong Liu,Xi Zhou,Yanfeng Wang
発行日 2023-07-07 03:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク