RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba

要約

既存の RGBT 追跡手法は、多くの場合、各レイヤーのクロスモーダル融合を実行するためにさまざまなインタラクション モデルを設計しますが、計算負荷が大きいため、ロバストなマルチモーダル表現で重要な役割を果たすすべてのレイヤー間の特徴インタラクションを実行できません。
この問題に対処するために、この論文では AINet という名前の新しい全層マルチモーダル インタラクション ネットワークを紹介します。これは、ロバストな RGBT トラッキングのために、プログレッシブ フュージョン Mamba のすべてのモダリティとレイヤの効率的かつ効果的な機能インタラクションを実行します。
異なるレイヤーのモダリティ特徴には異なるキューが含まれることが知られていますが、インタラクション機能と効率のバランスを取るのに苦労するため、各レイヤーでマルチモーダル インタラクションを構築することは常に困難です。
一方、RGB モダリティと熱モダリティ間の特徴の不一致がそれらの補完情報をある程度反映していることを考慮して、線形複雑性を備えた異なるモダリティの強化された融合を実現する差分ベースの融合マンバ (DFM) を設計します。
すべてのレイヤーの機能を操作する場合、膨大な数のトークン シーケンス (この作業では 3840 個のトークン) が関与するため、計算負荷が大きくなります。
この問題に対処するために、Mamba のさまざまなレイヤーのスキャン順序を動的に調整することで、すべてのレイヤーの効率的かつ効果的な機能インタラクションを実行する順序動的 Fusion Mamba (OFM) を設計します。
4 つの公開 RGBT 追跡データセットに対する広範な実験により、AINet が既存の最先端の手法に対して最高のパフォーマンスを達成することが示されました。

要約(オリジナル)

Existing RGBT tracking methods often design various interaction models to perform cross-modal fusion of each layer, but can not execute the feature interactions among all layers, which plays a critical role in robust multimodal representation, due to large computational burden. To address this issue, this paper presents a novel All-layer multimodal Interaction Network, named AINet, which performs efficient and effective feature interactions of all modalities and layers in a progressive fusion Mamba, for robust RGBT tracking. Even though modality features in different layers are known to contain different cues, it is always challenging to build multimodal interactions in each layer due to struggling in balancing interaction capabilities and efficiency. Meanwhile, considering that the feature discrepancy between RGB and thermal modalities reflects their complementary information to some extent, we design a Difference-based Fusion Mamba (DFM) to achieve enhanced fusion of different modalities with linear complexity. When interacting with features from all layers, a huge number of token sequences (3840 tokens in this work) are involved and the computational burden is thus large. To handle this problem, we design an Order-dynamic Fusion Mamba (OFM) to execute efficient and effective feature interactions of all layers by dynamically adjusting the scan order of different layers in Mamba. Extensive experiments on four public RGBT tracking datasets show that AINet achieves leading performance against existing state-of-the-art methods.

arxiv情報

著者 Andong Lu,Wanyu Wang,Chenglong Li,Jin Tang,Bin Luo
発行日 2024-08-16 16:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク