Self-Supervised RGB-T Tracking with Cross-Input Consistency

要約

本稿では、自己教師あり RGB-T 追跡法を提案します。
トレーニングに多数の注釈付き RGB-T 画像ペアを使用する既存のディープ RGB-T トラッカーとは異なり、当社の RGB-T トラッカーは、ラベル付けされていない RGB-T ビデオ ペアを使用して、自己教師付きでトレーニングされます。
さまざまな入力を使用して追跡を実行できるという考えに基づいて、クロス入力の一貫性に基づく新しい自己教師付きトレーニング戦略を提案します。
具体的には、ラベルのない RGB-T ビデオ ペアを使用して 2 つの異なる入力を作成します。
次に、これら 2 つの入力を使用してオブジェクトを追跡し、結果を生成します。これに基づいて、相互入力の整合性損失を構築します。
一方、損失関数を低品質のトレーニングサンプルに対して堅牢にするための再重み付け戦略を提案します。
シャム相関フィルター ネットワーク上にトラッカーを構築します。
私たちの知る限り、私たちのトラッカーは初の自己管理型 RGB-T トラッカーです。
2 つのパブリック RGB-T 追跡ベンチマークでの広範な実験により、提案されたトレーニング戦略が効果的であることが実証されました。
驚くべきことに、ラベル付けされていない RGB-T ビデオ ペアのコーパスのみを使用したトレーニングにもかかわらず、トラッカーは GTOT データセットで 7 つの教師付き RGB-T トラッカーよりも優れています。

要約(オリジナル)

In this paper, we propose a self-supervised RGB-T tracking method. Different from existing deep RGB-T trackers that use a large number of annotated RGB-T image pairs for training, our RGB-T tracker is trained using unlabeled RGB-T video pairs in a self-supervised manner. We propose a novel cross-input consistency-based self-supervised training strategy based on the idea that tracking can be performed using different inputs. Specifically, we construct two distinct inputs using unlabeled RGB-T video pairs. We then track objects using these two inputs to generate results, based on which we construct our cross-input consistency loss. Meanwhile, we propose a reweighting strategy to make our loss function robust to low-quality training samples. We build our tracker on a Siamese correlation filter network. To the best of our knowledge, our tracker is the first self-supervised RGB-T tracker. Extensive experiments on two public RGB-T tracking benchmarks demonstrate that the proposed training strategy is effective. Remarkably, despite training only with a corpus of unlabeled RGB-T video pairs, our tracker outperforms seven supervised RGB-T trackers on the GTOT dataset.

arxiv情報

著者 Xingchen Zhang,Yiannis Demiris
発行日 2023-01-26 18:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク