要約
この論文の目的は、モーション セグメンテーション、つまりビデオ内の動くオブジェクトを発見してセグメント化することです。
これは、自己教師あり学習、合成データセットからの学習、オブジェクト中心の表現、アモーダル表現などを含む、多数の注意深く、時には複雑なアプローチとトレーニング スキームを備えた、よく研究されている分野です。
この論文における私たちの関心は、Segment Anything モデル (SAM) がこのタスクに貢献できるかどうかを判断することです。
私たちは、SAM のセグメンテーション機能と、移動オブジェクトを検出してグループ化するフローの機能を利用する、SAM とオプティカル フローを組み合わせる 2 つのモデルを調査します。
最初のモデルでは、RGB ではなくオプティカル フローを入力として受け取るように SAM を適応させます。
2 つ目では、SAM は RGB を入力として受け取り、フローはセグメンテーション プロンプトとして使用されます。
これらの驚くほど単純な方法は、さらに変更を加えることなく、単一オブジェクトと複数オブジェクトのベンチマークの両方で、以前のすべてのアプローチを大幅に上回ります。
また、これらのフレームレベルのセグメンテーションを、オブジェクトの同一性を維持するシーケンスレベルのセグメンテーションに拡張します。
繰り返しになりますが、この単純なモデルは、複数のビデオ オブジェクト セグメンテーション ベンチマークで以前の方法よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
The objective of this paper is motion segmentation — discovering and segmenting the moving objects in a video. This is a much studied area with numerous careful,and sometimes complex, approaches and training schemes including: self-supervised learning, learning from synthetic datasets, object-centric representations, amodal representations, and many more. Our interest in this paper is to determine if the Segment Anything model (SAM) can contribute to this task. We investigate two models for combining SAM with optical flow that harness the segmentation power of SAM with the ability of flow to discover and group moving objects. In the first model, we adapt SAM to take optical flow, rather than RGB, as an input. In the second, SAM takes RGB as an input, and flow is used as a segmentation prompt. These surprisingly simple methods, without any further modifications, outperform all previous approaches by a considerable margin in both single and multi-object benchmarks. We also extend these frame-level segmentations to sequence-level segmentations that maintain object identity. Again, this simple model outperforms previous methods on multiple video object segmentation benchmarks.
arxiv情報
著者 | Junyu Xie,Charig Yang,Weidi Xie,Andrew Zisserman |
発行日 | 2024-04-18 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google