SAMWISE: Infusing wisdom in SAM2 for Text-Driven Video Segmentation

要約

参照ビデオ オブジェクト セグメンテーション (RVOS) は、自然言語表現に依存してビデオ クリップ内のオブジェクトをセグメント化します。
既存の方法では、推論が独立した短いクリップに制限され、グローバル コンテキストが失われるか、ビデオ全体がオフラインで処理され、ストリーミング形式でのアプリケーションが損なわれます。
この研究では、これらの制限を克服し、過去のフレームからのコンテキスト情報を保持しながら、ストリーミングのようなシナリオで効果的に動作できる RVOS メソッドを設計することを目指しています。
当社は、堅牢なセグメンテーションおよび追跡機能を提供し、ストリーミング処理に自然に適した Segment-Anything 2 (SAM2) モデルに基づいて構築されています。
私たちは、重みを微調整したり、モダリティの相互作用を外部モデルにアウトソーシングしたりせずに、特徴抽出段階で自然言語理解と明示的な時間モデリングを強化することで、SAM2 をより賢くしています。
この目的を達成するために、特徴抽出プロセスに時間情報とマルチモーダル キューを注入する新しいアダプター モジュールを導入します。
さらに、SAM2 における追跡バイアスの現象を明らかにし、現在のフレームの特徴がキャプションとより一致した新しいオブジェクトを示唆する場合に追跡フォーカスを調整する学習可能なモジュールを提案します。
私たちが提案する手法である SAMWISE は、わずか 420 万のパラメータという無視できるオーバーヘッドを追加するだけで、さまざまなベンチマークにわたって最先端の性能を実現します。
コードは https://github.com/ClaudiaCuttano/SAMWISE で入手できます。

要約(オリジナル)

Referring Video Object Segmentation (RVOS) relies on natural language expressions to segment an object in a video clip. Existing methods restrict reasoning either to independent short clips, losing global context, or process the entire video offline, impairing their application in a streaming fashion. In this work, we aim to surpass these limitations and design an RVOS method capable of effectively operating in streaming-like scenarios while retaining contextual information from past frames. We build upon the Segment-Anything 2 (SAM2) model, that provides robust segmentation and tracking capabilities and is naturally suited for streaming processing. We make SAM2 wiser, by empowering it with natural language understanding and explicit temporal modeling at the feature extraction stage, without fine-tuning its weights, and without outsourcing modality interaction to external models. To this end, we introduce a novel adapter module that injects temporal information and multi-modal cues in the feature extraction process. We further reveal the phenomenon of tracking bias in SAM2 and propose a learnable module to adjust its tracking focus when the current frame features suggest a new object more aligned with the caption. Our proposed method, SAMWISE, achieves state-of-the-art across various benchmarks, by adding a negligible overhead of just 4.2 M parameters. The code is available at https://github.com/ClaudiaCuttano/SAMWISE

arxiv情報

著者 Claudia Cuttano,Gabriele Trivigno,Gabriele Rosi,Carlo Masone,Giuseppe Averta
発行日 2024-11-26 18:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク