Segmenting the motion components of a video: A long-term unsupervised model

要約

人間にはビデオを継続的に分析し、動きの成分を即座に抽出する能力があります。
私たちは、このパラダイムを採用して、ビデオ シーケンス全体に一貫性のある安定したモーション セグメンテーションを提供したいと考えています。
この観点から、我々は完全に教師なしの方法で動作する新しい長期時空間モデルを提案します。
連続したオプティカル フロー (OF) フィールドのボリュームを入力として受け取り、ビデオ上にコヒーレント モーションのセグメントのボリュームを配信します。
より具体的には、数学的に十分に根拠のあるフレームワークである証拠下限 (ELBO) を利用して損失関数を導出する、変圧器ベースのネットワークを設計しました。
損失関数は、ビデオ シーケンスの空間次元の多項式 (二次) 運動モデルとビデオ シーケンスの時間次元の B スプラインを新しい方法で組み合わせた時空間パラメトリック運動モデルを含むフロー再構成項と、強制的な正則化項を組み合わせます。
セグメント上の時間的一貫性。
シーケンス全体のモーション セグメンテーションを一度に実行しながら、競合する定量的結果を実証する 4 つの VOS ベンチマークに関する実験を報告します。
また、視覚的な結果を通じて、私たちの方法によってもたらされる時間的一貫性に対する主な貢献を強調します。

要約(オリジナル)

Human beings have the ability to continuously analyze a video and immediately extract the motion components. We want to adopt this paradigm to provide a coherent and stable motion segmentation over the video sequence. In this perspective, we propose a novel long-term spatio-temporal model operating in a totally unsupervised way. It takes as input the volume of consecutive optical flow (OF) fields, and delivers a volume of segments of coherent motion over the video. More specifically, we have designed a transformer-based network, where we leverage a mathematically well-founded framework, the Evidence Lower Bound (ELBO), to derive the loss function. The loss function combines a flow reconstruction term involving spatio-temporal parametric motion models combining, in a novel way, polynomial (quadratic) motion models for the spatial dimensions and B-splines for the time dimension of the video sequence, and a regularization term enforcing temporal consistency on the segments. We report experiments on four VOS benchmarks, demonstrating competitive quantitative results, while performing motion segmentation on a whole sequence in one go. We also highlight through visual results the key contributions on temporal consistency brought by our method.

arxiv情報

著者 Etienne Meunier,Patrick Bouthemy
発行日 2024-04-17 17:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク