Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular Video Depth




– 現在の単眼深度推定法は、多様なシーンで優れた頑健性を達成していますが、未知のスケールとシフトを含んだアフィン不変の深度しか取得できません。
– ビデオ深度推定やビデオからの3Dシーン再構成のようなビデオベースのシナリオでは、フレームごとの予測に存在する未知のスケールとシフトが深度の不一致を引き起こす可能性があります。
– この問題を解決するために、我々は非常に疎なアンカーポイントに対してスケールとシフトを回復する局所的に重み付けされた線形回帰法を提案しています。これにより、連続フレームの間のスケールの一貫性が保証されます。
– 幅広い実験の結果、我々の方法は、既存の最先端手法の性能を最大50%改善できることがわかりました。また、630万以上のRGBD画像を統合して、パワフルかつ頑強な深度モデルをトレーニングすることができました。
– これらの深度モデルを使用して、単眼法の頑健性と疎ポイントのスケールの一貫性の両方の効果を享受することができる新しい密な3Dシーン再構成パイプラインを形成しました。ビデオ上での単純なフレームごとの予測により、正確な3Dシーンの形状を復元できます。


Existing monocular depth estimation methods have achieved excellent robustness in diverse scenes, but they can only retrieve affine-invariant depth, up to an unknown scale and shift. However, in some video-based scenarios such as video depth estimation and 3D scene reconstruction from a video, the unknown scale and shift residing in per-frame prediction may cause the depth inconsistency. To solve this problem, we propose a locally weighted linear regression method to recover the scale and shift with very sparse anchor points, which ensures the scale consistency along consecutive frames. Extensive experiments show that our method can boost the performance of existing state-of-the-art approaches by 50% at most over several zero-shot benchmarks. Besides, we merge over 6.3 million RGBD images to train strong and robust depth models. Our produced ResNet50-backbone model even outperforms the state-of-the-art DPT ViT-Large model. Combining with geometry-based reconstruction methods, we formulate a new dense 3D scene reconstruction pipeline, which benefits from both the scale consistency of sparse points and the robustness of monocular methods. By performing the simple per-frame prediction over a video, the accurate 3D scene shape can be recovered.


著者 Guangkai Xu,Wei Yin,Hao Chen,Chunhua Shen,Kai Cheng,Feng Wu,Feng Zhao
発行日 2023-04-06 03:08:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV パーマリンク