要約
メモリベースのトラッカーは、最近追跡されたフレームをメモリ バッファに連結することによってターゲット モデルを形成し、現在の画像をバッファされたフレームに関連付けることによってターゲットの位置を特定するビデオ オブジェクト セグメンテーション手法です。
すでに多くのベンチマークで最高のパフォーマンスを達成していますが、メモリベースのトラッカーがビジュアル オブジェクト トラッキング コミュニティの注目を集めたのは、SAM2 の最近のリリースでした。
それにもかかわらず、現代のトラッカーは依然として注意をそらすものの存在に苦戦しています。
私たちは、より洗練された記憶モデルが必要であると主張し、SAM2 用の新しいディストラクタ認識記憶モデルと、セグメンテーションの精度と追跡の堅牢性に共同で取り組むイントロスペクションベースの更新戦略を提案します。
結果のトラッカーは SAM2.1++ として示されます。
また、ディストラクタの問題をよりよく研究するために、ディストラクタを抽出した新しい DiDi データセットも提案します。
SAM2.1++ は、7 つのベンチマークで SAM2.1 および関連する SAM メモリ拡張機能を上回り、そのうち 6 つのベンチマークで確実に新しい最先端の性能を確立しました。
要約(オリジナル)
Memory-based trackers are video object segmentation methods that form the target model by concatenating recently tracked frames into a memory buffer and localize the target by attending the current image to the buffered frames. While already achieving top performance on many benchmarks, it was the recent release of SAM2 that placed memory-based trackers into focus of the visual object tracking community. Nevertheless, modern trackers still struggle in the presence of distractors. We argue that a more sophisticated memory model is required, and propose a new distractor-aware memory model for SAM2 and an introspection-based update strategy that jointly addresses the segmentation accuracy as well as tracking robustness. The resulting tracker is denoted as SAM2.1++. We also propose a new distractor-distilled DiDi dataset to study the distractor problem better. SAM2.1++ outperforms SAM2.1 and related SAM memory extensions on seven benchmarks and sets a solid new state-of-the-art on six of them.
arxiv情報
著者 | Jovana Videnovic,Alan Lukezic,Matej Kristan |
発行日 | 2024-11-26 16:41:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google