Matching Anything by Segmenting Anything

要約

複雑なシーンのビデオ フレーム全体で同じオブジェクトを確実に関連付けることは、多くのアプリケーション、特に複数オブジェクト トラッキング (MOT) にとって重要です。
現在の手法は主にラベル付きドメイン固有のビデオ データセットに依存しているため、学習された類似性埋め込みのクロスドメイン一般化が制限されています。
私たちは、ラベルを追跡することなく、さまざまなドメインにわたるビデオ内のあらゆるオブジェクトを照合できる、堅牢なインスタンス関連付け学習のための新しい方法である MASA を提案します。
MASA は、Segment Anything Model (SAM) の豊富なオブジェクト セグメンテーションを活用して、徹底的なデータ変換を通じてインスタンス レベルの対応関係を学習します。
SAM 出力を高密度オブジェクト領域の提案として扱い、膨大な画像コレクションからそれらの領域を照合する方法を学習します。
さらに、基本的なセグメンテーションまたは検出モデルと連携して動作し、検出されたオブジェクトを追跡できるようにするユニバーサル MASA アダプターを設計します。
これらの組み合わせにより、複雑な領域で強力なゼロショット追跡能力が発揮されます。
複数の困難な MOT および MOTS ベンチマークに対する広範なテストの結果、ラベルなしの静止画像のみを使用する提案された方法は、ゼロショット関連付けで完全にアノテーションが付けられたドメイン内ビデオ シーケンスでトレーニングされた最先端の方法よりもさらに優れたパフォーマンスを達成することが示されています。
プロジェクトページ: https://matchinganything.github.io/

要約(オリジナル)

The robust association of the same objects across video frames in complex scenes is crucial for many applications, especially Multiple Object Tracking (MOT). Current methods predominantly rely on labeled domain-specific video datasets, which limits the cross-domain generalization of learned similarity embeddings. We propose MASA, a novel method for robust instance association learning, capable of matching any objects within videos across diverse domains without tracking labels. Leveraging the rich object segmentation from the Segment Anything Model (SAM), MASA learns instance-level correspondence through exhaustive data transformations. We treat the SAM outputs as dense object region proposals and learn to match those regions from a vast image collection. We further design a universal MASA adapter which can work in tandem with foundational segmentation or detection models and enable them to track any detected objects. Those combinations present strong zero-shot tracking ability in complex domains. Extensive tests on multiple challenging MOT and MOTS benchmarks indicate that the proposed method, using only unlabeled static images, achieves even better performance than state-of-the-art methods trained with fully annotated in-domain video sequences, in zero-shot association. Project Page: https://matchinganything.github.io/

arxiv情報

著者 Siyuan Li,Lei Ke,Martin Danelljan,Luigi Piccinelli,Mattia Segu,Luc Van Gool,Fisher Yu
発行日 2024-06-06 16:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク