要約
ビデオ深度推定は、時間的に一貫した深度を推測することを目的としています。
一部の方法では、テスト中にジオメトリと再投影制約を使用して単一画像深度モデルを微調整することで時間的一貫性を実現しますが、これは非効率的で堅牢ではありません。
別のアプローチは、データから時間的一貫性を強制する方法を学習することですが、これには適切に設計されたモデルと十分なビデオ深度データが必要です。
これらの課題に対処するために、一貫性のない深度推定を安定させ、余分な労力をかけずにさまざまな単一画像深度モデルに適用できる Neural Video Depth Stabilizer (NVDS) と呼ばれるプラグアンドプレイ フレームワークを提案します。
また、大規模なデータセットである Video Depth in the Wild (VDW) も紹介します。これは、200 万フレームを超える 14,203 個のビデオで構成されており、私たちの知る限り最大の自然シーンのビデオ深度データセットとなっています。
VDW データセットと 2 つの公開ベンチマークでメソッドを評価し、以前のアプローチと比較して一貫性、精度、効率が大幅に向上していることを実証しました。
私たちの研究は強固なベースラインとして機能し、学習ベースのビデオ深度モデルのデータ基盤を提供します。
今後の研究のためにデータセットとコードを公開します。
要約(オリジナル)
Video depth estimation aims to infer temporally consistent depth. Some methods achieve temporal consistency by finetuning a single-image depth model during test time using geometry and re-projection constraints, which is inefficient and not robust. An alternative approach is to learn how to enforce temporal consistency from data, but this requires well-designed models and sufficient video depth data. To address these challenges, we propose a plug-and-play framework called Neural Video Depth Stabilizer (NVDS) that stabilizes inconsistent depth estimations and can be applied to different single-image depth models without extra effort. We also introduce a large-scale dataset, Video Depth in the Wild (VDW), which consists of 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset to our knowledge. We evaluate our method on the VDW dataset as well as two public benchmarks and demonstrate significant improvements in consistency, accuracy, and efficiency compared to previous approaches. Our work serves as a solid baseline and provides a data foundation for learning-based video depth models. We will release our dataset and code for future research.
arxiv情報
著者 | Yiran Wang,Min Shi,Jiaqi Li,Zihao Huang,Zhiguo Cao,Jianming Zhang,Ke Xian,Guosheng Lin |
発行日 | 2023-08-10 09:36:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google