要約
マルチモーダルなビジョン言語 (VL) 学習は、出現した大規模な基礎モデルのおかげで、一般的なインテリジェンスへの傾向を顕著に押し上げています。
しかし、基本的な視覚の問題である追跡は、驚くべきことに、最近の VL 学習の隆盛による恩恵をあまり受けていません。
私たちは、その理由は 2 つあると主張します。1 つは大規模な視覚言語の注釈付きビデオの欠如、もう 1 つは現在の作品の効果のない視覚言語の相互作用学習です。
これらの煩わしさは、追跡のためのより効果的な視覚言語表現を設計すると同時に、モデル学習のための言語注釈を備えた大規模なデータベースを構築する動機付けになります。
特に、この論文では、6 つの一般的な追跡ベンチマークでビデオを装飾するための一般的な属性アノテーション戦略を最初に提案します。これは、23,000 を超えるビデオを含む大規模な視覚言語追跡データベースに貢献します。
次に、統合適応 VL 表現を学習することで追跡を改善する新しいフレームワークを紹介します。コアは、提案されている非対称アーキテクチャ検索およびモダリティ ミキサー (ModaMixer) です。
VL 表現をさらに改善するために、異なるモダリティを調整するためにコントラスト損失を導入します。
私たちの方法の有効性を徹底的に証明するために、提案されたフレームワークを、異なる設計の3つの追跡方法、つまりCNNベースのSiamCAR、TransformerベースのOSTrack、およびハイブリッド構造のTransTに統合します。
実験は、私たちのフレームワークが 6 つのベンチマークのすべてのベースラインを大幅に改善できることを示しています。
実証結果に加えて、アプローチを理論的に分析し、その合理性を示します。
VL 表現の可能性を明らかにすることで、コミュニティの注目が VL 追跡にさらに集中し、多様なマルチモーダル メッセージによる将来の追跡の可能性がさらに広がることを期待しています。
要約(オリジナル)
Multimodal vision-language (VL) learning has noticeably pushed the tendency toward generic intelligence owing to emerging large foundation models. However, tracking, as a fundamental vision problem, surprisingly enjoys less bonus from recent flourishing VL learning. We argue that the reasons are two-fold: the lack of large-scale vision-language annotated videos and ineffective vision-language interaction learning of current works. These nuisances motivate us to design more effective vision-language representation for tracking, meanwhile constructing a large database with language annotation for model learning. Particularly, in this paper, we first propose a general attribute annotation strategy to decorate videos in six popular tracking benchmarks, which contributes a large-scale vision-language tracking database with more than 23,000 videos. We then introduce a novel framework to improve tracking by learning a unified-adaptive VL representation, where the cores are the proposed asymmetric architecture search and modality mixer (ModaMixer). To further improve VL representation, we introduce a contrastive loss to align different modalities. To thoroughly evidence the effectiveness of our method, we integrate the proposed framework on three tracking methods with different designs, i.e., the CNN-based SiamCAR, the Transformer-based OSTrack, and the hybrid structure TransT. The experiments demonstrate that our framework can significantly improve all baselines on six benchmarks. Besides empirical results, we theoretically analyze our approach to show its rationality. By revealing the potential of VL representation, we expect the community to divert more attention to VL tracking and hope to open more possibilities for future tracking with diversified multimodal messages.
arxiv情報
著者 | Mingzhe Guo,Zhipeng Zhang,Liping Jing,Haibin Ling,Heng Fan |
発行日 | 2023-07-19 15:22:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google