FutureDepth: Learning to Predict the Future Improves Video Depth Estimation

要約

この論文では、新しいビデオ奥行き推定アプローチ、FutureDepth を提案します。これにより、モデルがトレーニング時に未来を予測することを学習させることで、モデルがマルチフレームとモーション キューを暗黙的に活用して奥行き推定を向上させることができます。
より具体的には、我々は、複数の連続フレームの特徴を取得し、1 タイム ステップ先のマルチフレーム特徴を反復的に予測するように訓練された将来予測ネットワーク F-Net を提案します。
このようにして、F-Net は基礎となる動きと対応情報を学習し、その機能を深度デコード プロセスに組み込みます。
さらに、マルチフレーム対応キューの学習を強化するために、マルチフレーム特徴量の適応的にマスクされた自動エンコーディングによってトレーニングされる再構成ネットワーク R-Net をさらに活用します。
推論時には、F-Net と R-Net の両方を使用して、深度デコーダーおよび最終リファインメント ネットワークで動作するクエリを生成します。
屋内、運転、オープンドメインのシナリオをカバーするいくつかのベンチマーク (NYUDv2、KITTI、DDAD、Sintel) での広範な実験を通じて、FutureDepth がベースライン モデルを大幅に改善し、既存のビデオ深度推定方法を上回り、新しい深度推定手法を設定することを示しました。
最先端 (SOTA) の精度。
さらに、FutureDepth は既存の SOTA ビデオ深度推定モデルより効率的であり、単眼モデルと比較した場合のレイテンシーは同等です。

要約(オリジナル)

In this paper, we propose a novel video depth estimation approach, FutureDepth, which enables the model to implicitly leverage multi-frame and motion cues to improve depth estimation by making it learn to predict the future at training. More specifically, we propose a future prediction network, F-Net, which takes the features of multiple consecutive frames and is trained to predict multi-frame features one time step ahead iteratively. In this way, F-Net learns the underlying motion and correspondence information, and we incorporate its features into the depth decoding process. Additionally, to enrich the learning of multiframe correspondence cues, we further leverage a reconstruction network, R-Net, which is trained via adaptively masked auto-encoding of multiframe feature volumes. At inference time, both F-Net and R-Net are used to produce queries to work with the depth decoder, as well as a final refinement network. Through extensive experiments on several benchmarks, i.e., NYUDv2, KITTI, DDAD, and Sintel, which cover indoor, driving, and open-domain scenarios, we show that FutureDepth significantly improves upon baseline models, outperforms existing video depth estimation methods, and sets new state-of-the-art (SOTA) accuracy. Furthermore, FutureDepth is more efficient than existing SOTA video depth estimation models and has similar latencies when comparing to monocular models

arxiv情報

著者 Rajeev Yasarla,Manish Kumar Singh,Hong Cai,Yunxiao Shi,Jisoo Jeong,Yinhao Zhu,Shizhong Han,Risheek Garrepalli,Fatih Porikli
発行日 2024-03-19 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク