Prompting for Multi-Modal Tracking

要約

マルチモーダル追跡は、従来の RGB ベースの追跡と比較して、複雑なシナリオでより正確かつ堅牢になるため、注目を集めています。
その鍵は、マルチモーダルなデータをいかに融合させ、モダリティ間のギャップを減らすかにあります。
ただし、マルチモーダル追跡は依然としてデータ不足に悩まされており、その結果、融合モジュールの学習が不十分になります。
このような融合モジュールを構築する代わりに、この論文では、マルチモーダルな視覚的プロンプトを重視することで、マルチモーダル追跡に関する新しい視点を提供します。
プロンプトパラダイムによってマルチモーダル入力を単一のモダリティに転送できる、新しいマルチモーダルプロンプトトラッカー(ProTrack)を設計します。
大規模に学習する事前トレーニング済みの RGB トラッカーの追跡機能を最大限に活用することで、当社の ProTrack は、マルチモーダル データに関する追加のトレーニングがなくても、入力を変更するだけで高性能のマルチモーダル トラッキングを実現できます。
5 つのベンチマーク データセットでの広範な実験により、提案された ProTrack の有効性が実証されました。

要約(オリジナル)

Multi-modal tracking gains attention due to its ability to be more accurate and robust in complex scenarios compared to traditional RGB-based tracking. Its key lies in how to fuse multi-modal data and reduce the gap between modalities. However, multi-modal tracking still severely suffers from data deficiency, thus resulting in the insufficient learning of fusion modules. Instead of building such a fusion module, in this paper, we provide a new perspective on multi-modal tracking by attaching importance to the multi-modal visual prompts. We design a novel multi-modal prompt tracker (ProTrack), which can transfer the multi-modal inputs to a single modality by the prompt paradigm. By best employing the tracking ability of pre-trained RGB trackers learning at scale, our ProTrack can achieve high-performance multi-modal tracking by only altering the inputs, even without any extra training on multi-modal data. Extensive experiments on 5 benchmark datasets demonstrate the effectiveness of the proposed ProTrack.

arxiv情報

著者 Jinyu Yang,Zhe Li,Feng Zheng,Aleš Leonardis,Jingkuan Song
発行日 2022-07-29 09:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク