Globally Consistent Video Depth and Pose Estimation with Efficient Test-Time Training

要約

高密度な深度と姿勢の推定は、様々なビデオアプリケーションに不可欠な前提条件である。従来のソリューションは、疎な特徴追跡のロバスト性と、ビデオにおける不十分なカメラベースラインに悩まされている。そのため、最近の手法では、学習ベースのオプティカルフローと深度事前分布を利用して、密な深度を推定している。しかし、従来の作品は、重い計算時間を必要とするか、最適とは言えない深度結果をもたらす。本論文では、動きからビデオ構造を学習するグローバルに一貫した手法であるGCVDを紹介します。GCVDはコンパクトなポーズグラフをCNNベースの最適化に統合し、効果的なキーフレーム選択機構からグローバルに一貫した推定を実現する。これは、フローガイドキーフレームとよく確立された深度事前分布を持つ学習ベースの手法の頑健性を向上させることができる。実験結果は、GCVDが深度推定と姿勢推定の両方において、最先端の手法を凌駕することを示している。さらに、実行実験により、グローバルな一貫性を提供することで、短時間と長時間の両方のビデオで強い効率性を提供することが明らかになった。

要約(オリジナル)

Dense depth and pose estimation is a vital prerequisite for various video applications. Traditional solutions suffer from the robustness of sparse feature tracking and insufficient camera baselines in videos. Therefore, recent methods utilize learning-based optical flow and depth prior to estimate dense depth. However, previous works require heavy computation time or yield sub-optimal depth results. We present GCVD, a globally consistent method for learning-based video structure from motion (SfM) in this paper. GCVD integrates a compact pose graph into the CNN-based optimization to achieve globally consistent estimation from an effective keyframe selection mechanism. It can improve the robustness of learning-based methods with flow-guided keyframes and well-established depth prior. Experimental results show that GCVD outperforms the state-of-the-art methods on both depth and pose estimation. Besides, the runtime experiments reveal that it provides strong efficiency in both short- and long-term videos with global consistency provided.

arxiv情報

著者 Yao-Chih Lee,Kuan-Wei Tseng,Guan-Sheng Chen,Chu-Song Chen
発行日 2022-08-04 15:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク