Learning Temporally Consistent Video Depth from Video Diffusion Priors


この研究では、フレームごとの精度だけでなく、より重要なことに、フレーム間の一貫性も期待される、ストリーミング ビデオの深度推定の課題に取り組んでいます。
スライディング ウィンドウ戦略を使用し、ノイズを追加することなく以前に予測されたフレームで重複するフレームを初期化しながら、トレーニング中にクリップ内の各フレームの独立したノイズ レベルをサンプリングします。
広範な実験結果により、私たちの設計選択が検証され、ChronoDepth と呼ばれる私たちのアプローチの優位性が実証されました。
プロジェクトページ: https://xdimlab.github.io/ChronoDepth/。


This work addresses the challenge of streamed video depth estimation, which expects not only per-frame accuracy but, more importantly, cross-frame consistency. We argue that sharing contextual information between frames or clips is pivotal in fostering temporal consistency. Thus, instead of directly developing a depth estimator from scratch, we reformulate this predictive task into a conditional generation problem to provide contextual information within a clip and across clips. Specifically, we propose a consistent context-aware training and inference strategy for arbitrarily long videos to provide cross-clip context. We sample independent noise levels for each frame within a clip during training while using a sliding window strategy and initializing overlapping frames with previously predicted frames without adding noise. Moreover, we design an effective training strategy to provide context within a clip. Extensive experimental results validate our design choices and demonstrate the superiority of our approach, dubbed ChronoDepth. Project page: https://xdimlab.github.io/ChronoDepth/.


著者 Jiahao Shao,Yuanbo Yang,Hongyu Zhou,Youmin Zhang,Yujun Shen,Vitor Guizilini,Yue Wang,Matteo Poggi,Yiyi Liao
発行日 2024-12-02 17:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク