要約
この論文では、新しいビデオ奥行き推定アプローチ、FutureDepth を提案します。これにより、モデルがトレーニング時に未来を予測することを学習させることで、モデルがマルチフレームとモーション キューを暗黙的に活用して奥行き推定を向上させることができます。
より具体的には、我々は、複数の連続フレームの特徴を取得し、1 タイム ステップ先のマルチフレーム特徴を反復的に予測するように訓練された将来予測ネットワーク F-Net を提案します。
このようにして、F-Net は基礎となる動きと対応情報を学習し、その機能を深度デコード プロセスに組み込みます。
さらに、マルチフレーム対応キューの学習を強化するために、マルチフレーム特徴量の適応的にマスクされた自動エンコーディングによってトレーニングされる再構成ネットワーク R-Net をさらに活用します。
推論時には、F-Net と R-Net の両方を使用して、深度デコーダーおよび最終リファインメント ネットワークで動作するクエリを生成します。
屋内、運転、オープンドメインのシナリオをカバーするいくつかのベンチマーク (NYUDv2、KITTI、DDAD、Sintel) での広範な実験を通じて、FutureDepth がベースライン モデルを大幅に改善し、既存のビデオ深度推定方法を上回り、新しい深度推定手法を設定することを示しました。
最先端 (SOTA) の精度。
さらに、FutureDepth は既存の SOTA ビデオ深度推定モデルより効率的であり、単眼モデルと比較した場合のレイテンシーは同等です。
要約(オリジナル)
In this paper, we propose a novel video depth estimation approach, FutureDepth, which enables the model to implicitly leverage multi-frame and motion cues to improve depth estimation by making it learn to predict the future at training. More specifically, we propose a future prediction network, F-Net, which takes the features of multiple consecutive frames and is trained to predict multi-frame features one time step ahead iteratively. In this way, F-Net learns the underlying motion and correspondence information, and we incorporate its features into the depth decoding process. Additionally, to enrich the learning of multiframe correspondence cues, we further leverage a reconstruction network, R-Net, which is trained via adaptively masked auto-encoding of multiframe feature volumes. At inference time, both F-Net and R-Net are used to produce queries to work with the depth decoder, as well as a final refinement network. Through extensive experiments on several benchmarks, i.e., NYUDv2, KITTI, DDAD, and Sintel, which cover indoor, driving, and open-domain scenarios, we show that FutureDepth significantly improves upon baseline models, outperforms existing video depth estimation methods, and sets new state-of-the-art (SOTA) accuracy. Furthermore, FutureDepth is more efficient than existing SOTA video depth estimation models and has similar latencies when comparing to monocular models
arxiv情報
著者 | Rajeev Yasarla,Manish Kumar Singh,Hong Cai,Yunxiao Shi,Jisoo Jeong,Yinhao Zhu,Shizhong Han,Risheek Garrepalli,Fatih Porikli |
発行日 | 2024-03-19 17:55:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google