要約
表面の通常の推定は、コンピュータービジョンアプリケーションのスペクトルの基礎として機能します。
静的な画像シナリオには多くの努力が払われていますが、ビデオベースの通常の推定の一時的な一貫性を確保することは、恐ろしい課題のままです。
既存のメソッドを時間コンポーネントで拡張するだけでなく、ビデオ拡散モデルの固有の時間的事前層を活用するために通常のクラフターを提示します。
シーケンス全体で高忠実度の通常の推定を確保するために、セマンティックフィーチャの正規化(SFR)を提案します。これは、拡散機能をセマンティックキューに合わせることで、モデルがシーンの本質的なセマンティクスに集中することを奨励します。
さらに、長い時間的コンテキストを維持しながら空間精度を維持するために潜在的なスペースとピクセルの両方のスペース学習を活用する2段階のトレーニングプロトコルを導入します。
広範な評価は、私たちの方法の有効性を示しており、多様なビデオから複雑な詳細を含む一時的に一貫した通常のシーケンスを生成する上で優れたパフォーマンスを示しています。
要約(オリジナル)
Surface normal estimation serves as a cornerstone for a spectrum of computer vision applications. While numerous efforts have been devoted to static image scenarios, ensuring temporal coherence in video-based normal estimation remains a formidable challenge. Instead of merely augmenting existing methods with temporal components, we present NormalCrafter to leverage the inherent temporal priors of video diffusion models. To secure high-fidelity normal estimation across sequences, we propose Semantic Feature Regularization (SFR), which aligns diffusion features with semantic cues, encouraging the model to concentrate on the intrinsic semantics of the scene. Moreover, we introduce a two-stage training protocol that leverages both latent and pixel space learning to preserve spatial accuracy while maintaining long temporal context. Extensive evaluations demonstrate the efficacy of our method, showcasing a superior performance in generating temporally consistent normal sequences with intricate details from diverse videos.
arxiv情報
著者 | Yanrui Bin,Wenbo Hu,Haoyuan Wang,Xinya Chen,Bing Wang |
発行日 | 2025-04-15 17:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google