SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking

要約

ビジョンベースの物体追跡は、無人航空機 (UAV) の広範な自律型アプリケーションを後押ししています。
ただし、UAV 追跡で遭遇する飛行操作と視点の動的な変化は、重大な困難をもたらします。
、縦横比の変更、およびスケールの変化。
従来の相互相関操作は、一般的に使用されていますが、知覚的な類似性を効果的に捉えるには限界があり、無関係な背景情報が組み込まれています。
これらの制限を軽減するために、この作業では、UAV 追跡用の新しい顕著性ガイド付きダイナミック ビジョン トランスフォーマー (SGDViT) を紹介します。
提案された方法は、新しいタスク固有のオブジェクト顕著性マイニング ネットワークを設計して、相互相関演算を改良し、フォアグラウンド情報とバックグラウンド情報を効果的に識別します。
さらに、顕著性適応埋め込み操作は、初期の顕著性に基づいてトークンを動的に生成するため、Transformer アーキテクチャの計算の複雑さが軽減されます。
最後に、軽量の顕著性フィルタリング Transformer は、顕著性情報をさらに洗練し、外観情報への注目を高めます。
提案されたアプローチの有効性と堅牢性は、3 つの広く使用されている UAV 追跡ベンチマークと現実世界のシナリオでの実験を通じて徹底的に評価されており、結果はその優位性を実証しています。
ソース コードとデモ ビデオは、https://github.com/vision4robotics/SGDViT で入手できます。

要約(オリジナル)

Vision-based object tracking has boosted extensive autonomous applications for unmanned aerial vehicles (UAVs). However, the dynamic changes in flight maneuver and viewpoint encountered in UAV tracking pose significant difficulties, e.g. , aspect ratio change, and scale variation. The conventional cross-correlation operation, while commonly used, has limitations in effectively capturing perceptual similarity and incorporates extraneous background information. To mitigate these limitations, this work presents a novel saliency-guided dynamic vision Transformer (SGDViT) for UAV tracking. The proposed method designs a new task-specific object saliency mining network to refine the cross-correlation operation and effectively discriminate foreground and background information. Additionally, a saliency adaptation embedding operation dynamically generates tokens based on initial saliency, thereby reducing the computational complexity of the Transformer architecture. Finally, a lightweight saliency filtering Transformer further refines saliency information and increases the focus on appearance information. The efficacy and robustness of the proposed approach have been thoroughly assessed through experiments on three widely-used UAV tracking benchmarks and real-world scenarios, with results demonstrating its superiority. The source code and demo videos are available at https://github.com/vision4robotics/SGDViT.

arxiv情報

著者 Liangliang Yao,Changhong Fu,Sihang Li,Guangze Zheng,Junjie Ye
発行日 2023-03-08 05:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク