Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

要約

Depth Anything は、強力な一般化能力により、単眼の深度推定において目覚ましい成功を収めています。
しかし、ビデオでは時間的な不整合が発生し、実用化の妨げとなっています。
ビデオ生成モデルを活用したり、オプティカル フローやカメラのポーズから事前分布を導入したりすることで、この問題を軽減するさまざまな方法が提案されています。
それにもかかわらず、これらの方法は短いビデオ (10 秒未満) にのみ適用でき、品質と計算効率の間のトレードオフが必要です。
私たちは、効率を犠牲にすることなく、超長時間ビデオ (数分以上) で高品質で一貫した深度推定を行う Video Depth Anything を提案します。
私たちのモデルは Depth Anything V2 に基づいており、そのヘッドを効率的な時空間ヘッドに置き換えます。
時間的深度勾配を制限することで、単純かつ効果的な時間的一貫性の損失を設計し、追加の幾何学的事前分布の必要性を排除します。
このモデルは、Depth Anything V2 と同様に、ビデオ深度とラベルのない画像の結合データセットでトレーニングされます。
さらに、長いビデオ推論のために、新しいキーフレームベースの戦略が開発されています。
実験の結果、品質、一貫性、一般化能力を損なうことなく、任意の長さのビデオにこのモデルを適用できることがわかりました。
複数のビデオ ベンチマークの包括的な評価により、私たちのアプローチがゼロショット ビデオ深度推定において新しい最先端を確立していることが実証されています。
当社では、さまざまなシナリオをサポートするためにさまざまなスケールのモデルを提供しており、最小モデルでは 30 FPS のリアルタイム パフォーマンスが可能です。

要約(オリジナル)

Depth Anything has achieved remarkable success in monocular depth estimation with strong generalization ability. However, it suffers from temporal inconsistency in videos, hindering its practical applications. Various methods have been proposed to alleviate this issue by leveraging video generation models or introducing priors from optical flow and camera poses. Nonetheless, these methods are only applicable to short videos (< 10 seconds) and require a trade-off between quality and computational efficiency. We propose Video Depth Anything for high-quality, consistent depth estimation in super-long videos (over several minutes) without sacrificing efficiency. We base our model on Depth Anything V2 and replace its head with an efficient spatial-temporal head. We design a straightforward yet effective temporal consistency loss by constraining the temporal depth gradient, eliminating the need for additional geometric priors. The model is trained on a joint dataset of video depth and unlabeled images, similar to Depth Anything V2. Moreover, a novel key-frame-based strategy is developed for long video inference. Experiments show that our model can be applied to arbitrarily long videos without compromising quality, consistency, or generalization ability. Comprehensive evaluations on multiple video benchmarks demonstrate that our approach sets a new state-of-the-art in zero-shot video depth estimation. We offer models of different scales to support a range of scenarios, with our smallest model capable of real-time performance at 30 FPS.

arxiv情報

著者 Sili Chen,Hengkai Guo,Shengnan Zhu,Feihu Zhang,Zilong Huang,Jiashi Feng,Bingyi Kang
発行日 2025-01-22 11:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク