Learning Temporally Consistent Video Depth from Video Diffusion Priors

要約

この研究では、フレームごとの精度だけでなく、より重要なことに、フレーム間の一貫性も期待される、ストリーミング ビデオの深度推定の課題に取り組んでいます。
私たちは、フレームまたはクリップ間でコンテキスト情報を共有することが時間的一貫性を促進する上で極めて重要であると主張します。
したがって、深度推定器をゼロから直接開発する代わりに、この予測タスクを条件付き生成問題に再定式化して、クリップ内およびクリップ間のコンテキスト情報を提供します。
具体的には、任意の長さのビデオに対して一貫したコンテキストを意識したトレーニングと推論戦略を提案し、クロスクリップのコンテキストを提供します。
スライディング ウィンドウ戦略を使用し、ノイズを追加することなく以前に予測されたフレームで重複するフレームを初期化しながら、トレーニング中にクリップ内の各フレームの独立したノイズ レベルをサンプリングします。
さらに、クリップ内のコンテキストを提供する効果的なトレーニング戦略を設計します。
広範な実験結果により、私たちの設計選択が検証され、ChronoDepth と呼ばれる私たちのアプローチの優位性が実証されました。
プロジェクトページ: https://xdimlab.github.io/ChronoDepth/。

要約(オリジナル)

This work addresses the challenge of streamed video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. We argue that sharing contextual information between frames or clips is pivotal in fostering temporal consistency. Thus, instead of directly developing a depth estimator from scratch, we reformulate this predictive task into a conditional generation problem to provide contextual information within a clip and across clips. Specifically, we propose a consistent context-aware training and inference strategy for arbitrarily long videos to provide cross-clip context. We sample independent noise levels for each frame within a clip during training while using a sliding window strategy and initializing overlapping frames with previously predicted frames without adding noise. Moreover, we design an effective training strategy to provide context within a clip. Extensive experimental results validate our design choices and demonstrate the superiority of our approach, dubbed ChronoDepth. Project page: https://xdimlab.github.io/ChronoDepth/.

arxiv情報

著者 Jiahao Shao,Yuanbo Yang,Hongyu Zhou,Youmin Zhang,Yujun Shen,Vitor Guizilini,Yue Wang,Matteo Poggi,Yiyi Liao
発行日 2024-12-02 17:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク