Transparent Object Tracking with Enhanced Fusion Module

要約

メガネなどの透明な物体の正確な追跡は、ロボット支援生活などの多くのロボット作業において重要な役割を果たします。
このようなオブジェクトの適応的で多くの場合反射性のテクスチャのため、汎用の学習された特徴に依存する従来の追跡アルゴリズムはパフォーマンスの低下に悩まされます。
最近の研究では、専用の機能を融合することで、既存の汎用オブジェクト トラッカーに透明性の意識を植え付けることが提案されています。
ただし、既存の融合技術では、新しい機能の追加により潜在空間に変化が生じ、固定された潜在空間を持つトラッカーに透明性の認識を組み込むことができなくなります。
たとえば、現在の変圧器ベースのトラッカーの多くは完全に事前トレーニングされており、潜在的な空間の摂動に敏感です。
この論文では、透明度情報を固定特徴空間に統合し、より広範囲のトラッカーでの使用を可能にする新しい特徴融合技術を紹介します。
私たちが提案する融合モジュールは、トランスフォーマー エンコーダーと MLP モジュールで構成され、主要なクエリベースの変換を活用して、透明性情報を追跡パイプラインに埋め込みます。
また、透明性機能を効果的に結合するための融合モジュールの新しい 2 ステップのトレーニング戦略も紹介します。
私たちは、融合技術を使用して透明オブジェクト追跡の優れた結果を達成する新しいトラッカー アーキテクチャを提案します。
私たちが提案した手法は、最近リリースされた最大の透明オブジェクト追跡ベンチマークである TOTB 上の最先端のトラッカーと競合する結果を達成しました。
私たちの結果とコードの実装は、https://github.com/kalyan0510/TOTEM で公開されます。

要約(オリジナル)

Accurate tracking of transparent objects, such as glasses, plays a critical role in many robotic tasks such as robot-assisted living. Due to the adaptive and often reflective texture of such objects, traditional tracking algorithms that rely on general-purpose learned features suffer from reduced performance. Recent research has proposed to instill transparency awareness into existing general object trackers by fusing purpose-built features. However, with the existing fusion techniques, the addition of new features causes a change in the latent space making it impossible to incorporate transparency awareness on trackers with fixed latent spaces. For example, many of the current days transformer-based trackers are fully pre-trained and are sensitive to any latent space perturbations. In this paper, we present a new feature fusion technique that integrates transparency information into a fixed feature space, enabling its use in a broader range of trackers. Our proposed fusion module, composed of a transformer encoder and an MLP module, leverages key query-based transformations to embed the transparency information into the tracking pipeline. We also present a new two-step training strategy for our fusion module to effectively merge transparency features. We propose a new tracker architecture that uses our fusion techniques to achieve superior results for transparent object tracking. Our proposed method achieves competitive results with state-of-the-art trackers on TOTB, which is the largest transparent object tracking benchmark recently released. Our results and the implementation of code will be made publicly available at https://github.com/kalyan0510/TOTEM.

arxiv情報

著者 Kalyan Garigapati,Erik Blasch,Jie Wei,Haibin Ling
発行日 2023-09-13 03:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク