TAPTRv2: Attention-based Position Update Improves Tracking Any Point

要約

このペーパーでは、Tracking Any Point (TAP) タスクを解決するために TAPTR に基づいて構築された Transformer ベースのアプローチである TAPTRv2 を紹介します。
TAPTR は DEtection TRansformer (DETR) から設計を借用し、各追跡ポイントをポイント クエリとして定式化し、DETR のようなアルゴリズムで十分に研究された操作を活用できるようにします。
TAPTRv2 は、ポイント クエリのコンテンツ機能を汚染し、可視性の予測とコスト ボリュームの計算の両方に悪影響を及ぼすコスト ボリュームへの依存に関する重大な問題に対処することにより、TAPTR を改善します。
TAPTRv2 では、新しいアテンションベースの位置更新 (APU) 操作を提案し、キー認識の変形可能なアテンションを使用して実現します。
この操作では、クエリごとに、キー認識アテンション ウェイトを使用して、対応する変形可能なサンプリング位置を組み合わせて、新しいクエリ位置を予測します。
この設計は、ローカル アテンションは本質的にコスト ボリュームと同じであり、どちらもクエリとその周囲のフィーチャの間のドット生成によって計算されるという観察に基づいています。
この新しい操作を導入することにより、TAPTRv2 はコストとボリュームの計算の余分な負担を取り除くだけでなく、大幅なパフォーマンスの向上にもつながります。
TAPTRv2 は TAPTR を上回り、多くの困難なデータセットで最先端のパフォーマンスを達成し、その優位性を実証します

要約(オリジナル)

In this paper, we present TAPTRv2, a Transformer-based approach built upon TAPTR for solving the Tracking Any Point (TAP) task. TAPTR borrows designs from DEtection TRansformer (DETR) and formulates each tracking point as a point query, making it possible to leverage well-studied operations in DETR-like algorithms. TAPTRv2 improves TAPTR by addressing a critical issue regarding its reliance on cost-volume,which contaminates the point query\’s content feature and negatively impacts both visibility prediction and cost-volume computation. In TAPTRv2, we propose a novel attention-based position update (APU) operation and use key-aware deformable attention to realize. For each query, this operation uses key-aware attention weights to combine their corresponding deformable sampling positions to predict a new query position. This design is based on the observation that local attention is essentially the same as cost-volume, both of which are computed by dot-production between a query and its surrounding features. By introducing this new operation, TAPTRv2 not only removes the extra burden of cost-volume computation, but also leads to a substantial performance improvement. TAPTRv2 surpasses TAPTR and achieves state-of-the-art performance on many challenging datasets, demonstrating the superiority

arxiv情報

著者 Hongyang Li,Hao Zhang,Shilong Liu,Zhaoyang Zeng,Feng Li,Tianhe Ren,Bohan Li,Lei Zhang
発行日 2024-07-23 08:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク