eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking

要約

高フレームレートの物体追跡のためのフレームベースカメラとイベントカメラの独自の相補性は、最近、マルチモーダル融合アプローチを開発するいくつかの研究の試みに影響を与えています。
ただし、これらの方法は両方のモダリティを直接融合するため、モーションブラー、照明の変化、オクルージョン、スケールの変化などの環境属性を無視します。一方、検索機能とテンプレート機能の間に相互作用がないため、ターゲットオブジェクトと背景を区別することが困難になります。
その結果、特に困難な条件ではパフォーマンスの低下が引き起こされます。
この論文では、さまざまな条件下で新しい SOTA パフォーマンスを実現する、eMoE-Tracker と呼ばれる、新しく効果的な Transformer ベースのイベント ガイド付き追跡フレームワークを提案します。
私たちの重要なアイデアは、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習して、ターゲット情報と背景の間の相互作用と識別性を向上させることです。
目標を達成するために、私たちはまず、属性固有の特徴を学習するための環境属性分解と、学習可能な属性スコアによって属性固有の特徴を動的に組み立てるための環境属性ゲーティングに基づいて構築された環境混合専門家 (eMoE) モジュールを提案します。

eMoE モジュールは、変圧器バックボーンをより効率的に微調整する微妙なルーターです。
次に、対照関係モデリング (CRM) モジュールを導入して、ターゲット情報と背景の間の相互作用と識別性を向上させます。
さまざまなイベントベースのベンチマーク データセットに対する広範な実験により、従来技術と比較して当社の eMoE-Tracker の優れたパフォーマンスが実証されました。

要約(オリジナル)

The unique complementarity of frame-based and event cameras for high frame rate object tracking has recently inspired some research attempts to develop multi-modal fusion approaches. However, these methods directly fuse both modalities and thus ignore the environmental attributes, e.g., motion blur, illumination variance, occlusion, scale variation, etc. Meanwhile, no interaction between search and template features makes distinguishing target objects and backgrounds difficult. As a result, performance degradation is induced especially in challenging conditions. This paper proposes a novel and effective Transformer-based event-guided tracking framework, called eMoE-Tracker, which achieves new SOTA performance under various conditions. Our key idea is to disentangle the environment into several learnable attributes to dynamically learn the attribute-specific features for better interaction and discriminability between the target information and background. To achieve the goal, we first propose an environmental Mix-of-Experts (eMoE) module that is built upon the environmental Attributes Disentanglement to learn attribute-specific features and environmental Attributes Gating to assemble the attribute-specific features by the learnable attribute scores dynamically. The eMoE module is a subtle router that fine-tunes the transformer backbone more efficiently. We then introduce a contrastive relation modeling (CRM) module to improve interaction and discriminability between the target information and background. Extensive experiments on diverse event-based benchmark datasets showcase the superior performance of our eMoE-Tracker compared to the prior arts.

arxiv情報

著者 Yucheng Chen,Lin Wang
発行日 2024-06-28 16:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク