Generative-based Fusion Mechanism for Multi-Modal Tracking

要約

生成モデル (GM) は、包括的な理解を達成する優れた能力のため、研究の関心が高まっています。
しかし、マルチモーダル追跡の領域における潜在的な応用は、比較的未開拓のままです。
これに関連して、私たちは、マルチモーダル追跡における情報融合という重要な課題に対処するために、生成技術を活用する可能性を明らかにしようとしています。
このペーパーでは、条件付き敵対的生成ネットワーク (CGAN) と拡散モデル (DM) という 2 つの著名な GM 手法を詳しく掘り下げます。
各モダリティの特徴が融合ブロックに直接供給される標準的な融合プロセスとは異なり、これらのマルチモーダル特徴を GM フレームワークのランダム ノイズで条件付けし、元のトレーニング サンプルをより困難なインスタンスに効果的に変換します。
この設計は、特徴から識別の手がかりを抽出することに優れており、究極の追跡パフォーマンスを向上させます。
私たちのアプローチの有効性を定量的に評価するために、2 つのマルチモーダル追跡タスク、3 つのベースライン手法、および 3 つの困難なベンチマークにわたる広範な実験を実施します。
実験結果は、提案された生成ベースの融合メカニズムが最先端のパフォーマンスを達成し、LasHeR と RGBD1K で新記録を樹立することを示しています。

要約(オリジナル)

Generative models (GMs) have received increasing research interest for their remarkable capacity to achieve comprehensive understanding. However, their potential application in the domain of multi-modal tracking has remained relatively unexplored. In this context, we seek to uncover the potential of harnessing generative techniques to address the critical challenge, information fusion, in multi-modal tracking. In this paper, we delve into two prominent GM techniques, namely, Conditional Generative Adversarial Networks (CGANs) and Diffusion Models (DMs). Different from the standard fusion process where the features from each modality are directly fed into the fusion block, we condition these multi-modal features with random noise in the GM framework, effectively transforming the original training samples into harder instances. This design excels at extracting discriminative clues from the features, enhancing the ultimate tracking performance. To quantitatively gauge the effectiveness of our approach, we conduct extensive experiments across two multi-modal tracking tasks, three baseline methods, and three challenging benchmarks. The experimental results demonstrate that the proposed generative-based fusion mechanism achieves state-of-the-art performance, setting new records on LasHeR and RGBD1K.

arxiv情報

著者 Zhangyong Tang,Tianyang Xu,Xuefeng Zhu,Xiao-Jun Wu,Josef Kittler
発行日 2023-09-07 13:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク