要約
タイトル:SeqTrack:視覚的対象追跡のためのシーケンス・ツー・シーケンス学習
要約:
– SeqTrackは、視覚的追跡をシーケンス生成問題と見なし、オートリグレッシブに物体のバウンディングボックスを予測するシーケンス・ツー・シーケンス学習フレームワークです。
– これは、従来のSiameseトラッカーやトランスフォーマートラッカーとは異なり、分類や回帰ヘッドなどの複雑なヘッドネットワークの設計に頼らず、単純なエンコーダーデコーダートランスフォーマーアーキテクチャを採用することを特徴とします。
– エンコーダーは、双方向トランスフォーマーを使用してビジュアル特徴を抽出し、デコーダーは原因トランスフォーマーを使用してオートリグレッシブにバウンディングボックス値のシーケンスを生成します。損失関数は単純なクロスエントロピーです。
– このようなシーケンス学習パラダイムは、追跡フレームワークを簡素化するだけでなく、ベンチマークで競争力のあるパフォーマンスを実現します。 たとえば、SeqTrackは、LaSOTで72.5%のAUCを取得し、新しい最先端パフォーマンスを確立しています。 コードとモデルはこちらで利用可能です。
要約(オリジナル)
In this paper, we present a new sequence-to-sequence learning framework for visual tracking, dubbed SeqTrack. It casts visual tracking as a sequence generation problem, which predicts object bounding boxes in an autoregressive fashion. This is different from prior Siamese trackers and transformer trackers, which rely on designing complicated head networks, such as classification and regression heads. SeqTrack only adopts a simple encoder-decoder transformer architecture. The encoder extracts visual features with a bidirectional transformer, while the decoder generates a sequence of bounding box values autoregressively with a causal transformer. The loss function is a plain cross-entropy. Such a sequence learning paradigm not only simplifies tracking framework, but also achieves competitive performance on benchmarks. For instance, SeqTrack gets 72.5% AUC on LaSOT, establishing a new state-of-the-art performance. Code and models are available at here.
arxiv情報
著者 | Xin Chen,Houwen Peng,Dong Wang,Huchuan Lu,Han Hu |
発行日 | 2023-04-27 17:56:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI