Improving Visual Object Tracking through Visual Prompting

要約

一般的な視覚オブジェクトの追跡には、ターゲットを周囲の気を散らすものから区別するための識別モデルを学習することが不可欠です。
一般的なトラッカーの識別能力が限られているため、注意をそらすものに対する動的ターゲット表現の適応は困難です。
この問題に対処するために、汎用 Visual Object Tracking (PiVOT) 用の新しい視覚的なプロンプト メカニズムを紹介します。
PiVOT は、事前トレーニングされた基礎モデル CLIP を使用したプロンプト生成ネットワークを提案し、視覚的なプロンプトを自動的に生成および調整し、追跡のための基礎モデルの知識の転送を可能にします。
CLIP は幅広いカテゴリーレベルの知識を提供しますが、トラッカーはインスタンス固有のデータに基づいてトレーニングされており、固有のオブジェクト インスタンスの認識に優れています。
したがって、PiVOT はまず、潜在的なターゲットの場所を強調表示する視覚的なプロンプトをコンパイルします。
CLIP の知識をトラッカーに転送するために、PiVOT は CLIP を利用して、候補オブジェクトと潜在的なターゲット全体の参照テンプレート間の類似性に基づいて視覚的なプロンプトを調整します。
視覚的なプロンプトが改良されると、潜在的なターゲットの場所をより適切に強調表示できるため、無関係なプロンプト情報が削減されます。
提案されたプロンプト メカニズムを使用すると、トラッカーは視覚的なプロンプトのガイダンスを通じて改善されたインスタンス認識機能マップを生成できるため、気が散る要因を効果的に減らすことができます。
提案された方法では、トレーニング中に CLIP が関与しないため、同じトレーニングの複雑さが維持され、事前トレーニングされた基礎モデルの一般化機能が維持されます。
複数のベンチマークにわたる広範な実験により、提案されたプロンプト方法を使用する PiVOT が、気が散るオブジェクトを抑制し、トラッカーを強化できることが示されています。

要約(オリジナル)

Learning a discriminative model to distinguish a target from its surrounding distractors is essential to generic visual object tracking. Dynamic target representation adaptation against distractors is challenging due to the limited discriminative capabilities of prevailing trackers. We present a new visual Prompting mechanism for generic Visual Object Tracking (PiVOT) to address this issue. PiVOT proposes a prompt generation network with the pre-trained foundation model CLIP to automatically generate and refine visual prompts, enabling the transfer of foundation model knowledge for tracking. While CLIP offers broad category-level knowledge, the tracker, trained on instance-specific data, excels at recognizing unique object instances. Thus, PiVOT first compiles a visual prompt highlighting potential target locations. To transfer the knowledge of CLIP to the tracker, PiVOT leverages CLIP to refine the visual prompt based on the similarities between candidate objects and the reference templates across potential targets. Once the visual prompt is refined, it can better highlight potential target locations, thereby reducing irrelevant prompt information. With the proposed prompting mechanism, the tracker can generate improved instance-aware feature maps through the guidance of the visual prompt, thus effectively reducing distractors. The proposed method does not involve CLIP during training, thereby keeping the same training complexity and preserving the generalization capability of the pretrained foundation model. Extensive experiments across multiple benchmarks indicate that PiVOT, using the proposed prompting method can suppress distracting objects and enhance the tracker.

arxiv情報

著者 Shih-Fang Chen,Jun-Cheng Chen,I-Hong Jhuo,Yen-Yu Lin
発行日 2024-09-27 16:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.AI, cs.CV, cs.MM, eess.IV, I.2 パーマリンク