FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution

要約

汎用性の高いビデオ深度推定モデルは、(1)フレーム間で正確で一貫性があり、(2)高解像度の深度マップを生成し、(3)リアルタイムストリーミングをサポートする必要があります。
FlashDepthを提案します。これは、3つの要件すべてを満たす方法で、24 fpsで2044×1148ストリーミングビデオで深さ推定を実行します。
前提条件のシングルイメージ深度モデルを慎重に修正することで、これらの機能が比較的少ないデータとトレーニングで有効になっていることを示しています。
最先端の深度モデルに対して複数の目に見えないデータセットを越えてアプローチを評価し、競争の精度を維持しながら、境界のシャープネスと速度の点で大幅なマージンでそれらを上回ることがわかります。
私たちのモデルが、ビデオ編集などの高解像度の深さを必要とするさまざまなアプリケーションや、ロボット工学などのオンラインの意思決定を可能にすることを願っています。

要約(オリジナル)

A versatile video depth estimation model should (1) be accurate and consistent across frames, (2) produce high-resolution depth maps, and (3) support real-time streaming. We propose FlashDepth, a method that satisfies all three requirements, performing depth estimation on a 2044×1148 streaming video at 24 FPS. We show that, with careful modifications to pretrained single-image depth models, these capabilities are enabled with relatively little data and training. We evaluate our approach across multiple unseen datasets against state-of-the-art depth models, and find that ours outperforms them in terms of boundary sharpness and speed by a significant margin, while maintaining competitive accuracy. We hope our model will enable various applications that require high-resolution depth, such as video editing, and online decision-making, such as robotics.

arxiv情報

著者 Gene Chou,Wenqi Xian,Guandao Yang,Mohamed Abdelfattah,Bharath Hariharan,Noah Snavely,Ning Yu,Paul Debevec
発行日 2025-04-09 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク