IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation

要約

人間中心のビデオ生成は大幅に進歩しましたが、ビデオ深度の共同生成の問題は依然として十分に解明されていません。
既存の単眼奥行き推定方法のほとんどは、合成画像やビデオにうまく一般化できない可能性があり、多視点ベースの方法では人間の外観や動きを制御することが困難です。
この研究では、高品質の人間中心の共同ビデオ深度生成のための IDOL (unIfied Dual-mOdal Latent diffusion) を紹介します。
私たちのIDOLは2つの斬新なデザインで構成されています。
まず、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化するために、ビデオと深度の共同ノイズ除去のためのパラメータ共有フレームワークである統合デュアルモーダル U-Net を提案します。このフレームワークでは、モダリティ ラベルがノイズ除去ターゲットをガイドします。
、そしてクロスモーダルな注意により、相互の情報の流れが可能になります。
次に、ビデオと深度の正確な空間的位置合わせを保証するために、ビデオと深度フィーチャのモーション フィールド間の一貫性を強制し、出力の調和を図るモーション一貫性損失を提案します。
さらに、クロスアテンション マップの一貫性損失を適用して、ビデオ ノイズ除去のクロス アテンション マップと深度ノイズ除去のクロス アテンション マップを位置合わせし、空間的な位置合わせをさらに容易にします。
TikTok および NTU120 データセットに対する広範な実験により、ビデオ FVD と深度精度の点で既存の方法を大幅に上回る優れたパフォーマンスが示されました。

要約(オリジナル)

Significant advances have been made in human-centric video generation, yet the joint video-depth generation problem remains underexplored. Most existing monocular depth estimation methods may not generalize well to synthesized images or videos, and multi-view-based methods have difficulty controlling the human appearance and motion. In this work, we present IDOL (unIfied Dual-mOdal Latent diffusion) for high-quality human-centric joint video-depth generation. Our IDOL consists of two novel designs. First, to enable dual-modal generation and maximize the information exchange between video and depth generation, we propose a unified dual-modal U-Net, a parameter-sharing framework for joint video and depth denoising, wherein a modality label guides the denoising target, and cross-modal attention enables the mutual information flow. Second, to ensure a precise video-depth spatial alignment, we propose a motion consistency loss that enforces consistency between the video and depth feature motion fields, leading to harmonized outputs. Additionally, a cross-attention map consistency loss is applied to align the cross-attention map of the video denoising with that of the depth denoising, further facilitating spatial alignment. Extensive experiments on the TikTok and NTU120 datasets show our superior performance, significantly surpassing existing methods in terms of video FVD and depth accuracy.

arxiv情報

著者 Yuanhao Zhai,Kevin Lin,Linjie Li,Chung-Ching Lin,Jianfeng Wang,Zhengyuan Yang,David Doermann,Junsong Yuan,Zicheng Liu,Lijuan Wang
発行日 2024-07-15 17:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク