SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

要約

Segment Anything Model 2 (SAM 2) は、画像とビデオの両方におけるオブジェクト セグメンテーションの強力な基礎モデルとして登場し、さまざまなダウンストリーム ビデオ アプリケーションへの道を開きます。
ビデオ セグメンテーションにおける SAM 2 の重要な設計は、現在のフレーム予測のために以前のフレームからのオブジェクト認識メモリを促すメモリ モジュールです。
ただし、その貪欲選択メモリ設計には「エラー蓄積」問題があり、エラーまたはミスしたマスクがカスケードして後続のフレームのセグメンテーションに影響を及ぼし、複雑な長期ビデオに対する SAM 2 のパフォーマンスが制限されます。
この目的を達成するために、改良されたトレーニング不要のビデオ オブジェクト セグメンテーション戦略である SAM2Long を導入します。これは、各フレーム内のセグメンテーションの不確実性を考慮し、制約付きツリー検索方式で複数のセグメンテーション パスウェイからビデオ レベルの最適な結果を選択します。
実際には、ビデオ全体で固定数のセグメンテーション パスウェイを維持します。
フレームごとに、既存の経路に基づいて複数のマスクが提案され、さまざまな候補分岐が作成されます。
次に、累積スコアがより高い同じ固定数の分岐を、次のフレームの新しい経路として選択します。
最終フレームを処理した後、累積スコアが最も高いパスウェイが最終的なセグメンテーション結果として選択されます。
SAM2Long はヒューリスティック検索設計の利点を活かし、オクルージョンやオブジェクトの再出現に対して堅牢であり、複雑な長期ビデオのオブジェクトを効果的にセグメント化して追跡できます。
特に、SAM2Long は 24 の直接比較すべてで平均 3.0 ポイントの改善を達成し、SA-V や LVOS などの長期ビデオ オブジェクト セグメンテーション ベンチマークでは J&F で最大 5.3 ポイントの向上を達成しました。
コードは https://github.com/Mark12Ding/SAM2Long でリリースされています。

要約(オリジナル)

The Segment Anything Model 2 (SAM 2) has emerged as a powerful foundation model for object segmentation in both images and videos, paving the way for various downstream video applications. The crucial design of SAM 2 for video segmentation is its memory module, which prompts object-aware memories from previous frames for current frame prediction. However, its greedy-selection memory design suffers from the ‘error accumulation’ problem, where an errored or missed mask will cascade and influence the segmentation of the subsequent frames, which limits the performance of SAM 2 toward complex long-term videos. To this end, we introduce SAM2Long, an improved training-free video object segmentation strategy, which considers the segmentation uncertainty within each frame and chooses the video-level optimal results from multiple segmentation pathways in a constrained tree search manner. In practice, we maintain a fixed number of segmentation pathways throughout the video. For each frame, multiple masks are proposed based on the existing pathways, creating various candidate branches. We then select the same fixed number of branches with higher cumulative scores as the new pathways for the next frame. After processing the final frame, the pathway with the highest cumulative score is chosen as the final segmentation result. Benefiting from its heuristic search design, SAM2Long is robust toward occlusions and object reappearances, and can effectively segment and track objects for complex long-term videos. Notably, SAM2Long achieves an average improvement of 3.0 points across all 24 head-to-head comparisons, with gains of up to 5.3 points in J&F on long-term video object segmentation benchmarks such as SA-V and LVOS. The code is released at https://github.com/Mark12Ding/SAM2Long.

arxiv情報

著者 Shuangrui Ding,Rui Qian,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Yuwei Guo,Dahua Lin,Jiaqi Wang
発行日 2024-10-21 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク