Towards Efficient Training with Negative Samples in Visual Tracking

要約

視覚オブジェクト追跡における現在の最先端 (SOTA) 手法は、多くの場合、広範な計算リソースと膨大な量のトレーニング データを必要とし、過剰適合のリスクにつながります。
この研究では、過学習を軽減し、計算要件を削減するための、より効率的なトレーニング戦略を導入しています。
私たちは、最初からネガティブ サンプルとポジティブ サンプルを組み合わせてトレーニング プロセスのバランスをとります。これは、ネガティブ サンプルによる共同学習 (JN) と名付けられています。
ネガティブ サンプルとは、テンプレートのオブジェクトが検索領域に存在しないシナリオを指します。これにより、モデルがターゲットを単純に記憶するのを防ぎ、オブジェクトの位置を特定するためにテンプレートを使用することが奨励されます。
ネガティブ サンプルを効果的に処理するために、分布ベースのヘッドを採用します。これは、バウンディング ボックスを距離の分布としてモデル化し、ネガティブ サンプルの存在下でターゲットの位置に関する不確実性を表現し、混合サンプルのトレーニングを管理する効率的な方法を提供します。
さらに、私たちのアプローチでは、ターゲットを示すトークンが導入されています。
テンプレート イメージ内のターゲットの正確な位置をカプセル化します。
この方法では、無視できる計算コストで正確な境界の詳細が得られますが、パフォーマンスが向上します。
当社のモデル JN-256 は、困難なベンチマークで優れたパフォーマンスを示し、GOT-10k で 75.8% の AO、TrackingNet で 84.1% の AUC を達成しました。
特に、JN-256 は、より大きなモデルとより高い入力解像度を利用する以前の SOTA トラッカーよりも優れています。たとえ、それらの作業で使用されたサンプリングされたデータの数が半分しか使用されていないにもかかわらずです。

要約(オリジナル)

Current state-of-the-art (SOTA) methods in visual object tracking often require extensive computational resources and vast amounts of training data, leading to a risk of overfitting. This study introduces a more efficient training strategy to mitigate overfitting and reduce computational requirements. We balance the training process with a mix of negative and positive samples from the outset, named as Joint learning with Negative samples (JN). Negative samples refer to scenarios where the object from the template is not present in the search region, which helps to prevent the model from simply memorizing the target, and instead encourages it to use the template for object location. To handle the negative samples effectively, we adopt a distribution-based head, which modeling the bounding box as distribution of distances to express uncertainty about the target’s location in the presence of negative samples, offering an efficient way to manage the mixed sample training. Furthermore, our approach introduces a target-indicating token. It encapsulates the target’s precise location within the template image. This method provides exact boundary details with negligible computational cost but improving performance. Our model, JN-256, exhibits superior performance on challenging benchmarks, achieving 75.8% AO on GOT-10k and 84.1% AUC on TrackingNet. Notably, JN-256 outperforms previous SOTA trackers that utilize larger models and higher input resolutions, even though it is trained with only half the number of data sampled used in those works.

arxiv情報

著者 Qingmao Wei,Bi Zeng,Guotian Zeng
発行日 2023-09-06 10:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク