Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track

要約

ビデオ オブジェクト セグメンテーション (VOS) タスクは、最初のフレームのオブジェクト マスクのみを指定して、ビデオ シーケンス全体にわたって特定のオブジェクト インスタンスをセグメント化することを目的としています。
最近、Segment Anything Model 2 (SAM 2) が提案されました。これは、画像やビデオにおけるプロンプトな視覚的セグメンテーションを解決するための基礎モデルです。
SAM 2 は、ユーザー インタラクションを通じてモデルとデータを改善するデータ エンジンを構築し、これまでで最大のビデオ セグメンテーション データセットを収集します。
SAM 2 は、リアルタイム ビデオ処理用のストリーミング メモリを備えたシンプルなトランスフォーマー アーキテクチャであり、その日にトレーニングされて、幅広いタスクにわたって強力なパフォーマンスを提供します。
この研究では、より困難な VOS データセット MOSE および LVOS での SAM 2 のゼロショット パフォーマンスを評価します。
トレーニング セットで微調整を行わなかった場合、SAM 2 はテスト セットで 75.79 J&F を達成し、第 6 回 LSVOS チャレンジ VOS トラックで 4 位にランクされました。

要約(オリジナル)

Video Object Segmentation (VOS) task aims to segmenting a particular object instance throughout the entire video sequence given only the object mask of the first frame. Recently, Segment Anything Model 2 (SAM 2) is proposed, which is a foundation model towards solving promptable visual segmentation in images and videos. SAM 2 builds a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. SAM 2 is a simple transformer architecture with streaming memory for real-time video processing, which trained on the date provides strong performance across a wide range of tasks. In this work, we evaluate the zero-shot performance of SAM 2 on the more challenging VOS datasets MOSE and LVOS. Without fine-tuning on the training set, SAM 2 achieved 75.79 J&F on the test set and ranked 4th place for 6th LSVOS Challenge VOS Track.

arxiv情報

著者 Feiyu Pan,Hao Fang,Runmin Cong,Wei Zhang,Xiankai Lu
発行日 2024-08-19 16:13:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク