要約
Transformer ベースのビジュアル オブジェクト トラッキングが広く利用されています。
ただし、トランス構造は十分な誘導性バイアスが不足しています。
さらに、グローバル フィーチャのエンコードのみに焦点を当てると、ローカルの詳細のモデリングに悪影響を及ぼし、航空ロボットの追跡機能が制限されます。
具体的には、ローカル モデリングからグローバル検索メカニズムを使用して、提案されたトラッカーは、グローバル エンコーダーを新しいローカル認識エンコーダーに置き換えます。
採用されたエンコーダーでは、グローバルな冗長情報の干渉を減らし、ローカルの誘導バイアスを増加させるために、ローカル認識アテンションとローカル要素修正ネットワークが慎重に設計されています。
一方、後者は、詳細照会ネットを介して航空写真下でローカルオブジェクトの詳細を正確にモデル化できます。
提案された方法は、合計で 316 のシーケンスを持ついくつかの信頼できる航空ベンチマークで競争力のある精度と堅牢性を実現します。
提案されたトラッカーの実用性と効率性は、実際のテストによって検証されています。
要約(オリジナル)
Transformer-based visual object tracking has been utilized extensively. However, the Transformer structure is lack of enough inductive bias. In addition, only focusing on encoding the global feature does harm to modeling local details, which restricts the capability of tracking in aerial robots. Specifically, with local-modeling to global-search mechanism, the proposed tracker replaces the global encoder by a novel local-recognition encoder. In the employed encoder, a local-recognition attention and a local element correction network are carefully designed for reducing the global redundant information interference and increasing local inductive bias. Meanwhile, the latter can model local object details precisely under aerial view through detail-inquiry net. The proposed method achieves competitive accuracy and robustness in several authoritative aerial benchmarks with 316 sequences in total. The proposed tracker’s practicability and efficiency have been validated by the real-world tests.
arxiv情報
著者 | Changhong Fu,Weiyu Peng,Sihang Li,Junjie Ye,Ziang Cao |
発行日 | 2022-08-01 07:54:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google