要約
映像の奥行き推定は、時間的に一貫した奥行きを推測することを目的としている。1つのアプローチは、幾何学的制約を持つ各映像上の単一画像モデルを微調整することであるが、これは非効率的であり、ロバスト性に欠ける。もう一つの方法は、データから一貫性を強制する学習であり、これはよく設計されたモデルと十分なビデオ深度データを必要とする。この2つの課題を解決するために、様々な単一画像モデルによって推定された一貫性のない奥行きをプラグアンドプレイで安定化させるNVDS+を紹介する。また、大規模なVideo Depth in the Wild (VDW)データセットを精緻化する。このデータセットには14,203本の動画が含まれ、200万フレームを超える。さらに、前方予測と後方予測を適応的に融合することで、整合性を向上させる双方向推論戦略を設計する。我々は、様々なアプリケーションのために、小規模から大規模までのモデルファミリーをインスタンス化する。本手法をVDWデータセットと3つの公開ベンチマークで評価する。さらに汎用性を証明するために、NVDS+をビデオのセマンティックセグメンテーションや、ボケレンダリング、新しいビュー合成、3D再構成のようないくつかの下流アプリケーションに拡張する。実験結果は、我々の手法が一貫性、精度、効率性において大幅な改善を達成したことを示している。我々の研究は、学習ベースのビデオ深度推定のための強固なベースラインとデータ基盤として役立つ。コードとデータセットはhttps://github.com/RaymondWang987/NVDS。
要約(オリジナル)
Video depth estimation aims to infer temporally consistent depth. One approach is to finetune a single-image model on each video with geometry constraints, which proves inefficient and lacks robustness. An alternative is learning to enforce consistency from data, which requires well-designed models and sufficient video depth data. To address both challenges, we introduce NVDS+ that stabilizes inconsistent depth estimated by various single-image models in a plug-and-play manner. We also elaborate a large-scale Video Depth in the Wild (VDW) dataset, which contains 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset. Additionally, a bidirectional inference strategy is designed to improve consistency by adaptively fusing forward and backward predictions. We instantiate a model family ranging from small to large scales for different applications. The method is evaluated on VDW dataset and three public benchmarks. To further prove the versatility, we extend NVDS+ to video semantic segmentation and several downstream applications like bokeh rendering, novel view synthesis, and 3D reconstruction. Experimental results show that our method achieves significant improvements in consistency, accuracy, and efficiency. Our work serves as a solid baseline and data foundation for learning-based video depth estimation. Code and dataset are available at: https://github.com/RaymondWang987/NVDS
arxiv情報
著者 | Yiran Wang,Min Shi,Jiaqi Li,Chaoyi Hong,Zihao Huang,Juewen Peng,Zhiguo Cao,Jianming Zhang,Ke Xian,Guosheng Lin |
発行日 | 2024-10-03 17:58:03+00:00 |
arxivサイト | arxiv_id(pdf) |