要約
近年、ビデオ生成は大きな進歩を遂げています。
ただし、複雑な動きと相互作用を生成する際には、依然として課題が続いています。
これらの課題に対処するために、パラメーター化された3D物理知識を前処理された条件付きビデオ生成モデルに明示的に統合するプラグアンドプレイフレームワークであるリビジョンを紹介し、複雑な動きと相互作用を備えた高品質のビデオを生成する能力を大幅に向上させます。
具体的には、リビジョンは3つの段階で構成されています。
まず、ビデオ拡散モデルを使用して、粗いビデオを生成します。
次に、粗いビデオから一連の2Dおよび3D機能を抽出して、3Dオブジェクト中心の表現を構築します。これは、提案されたパラメーター化された物理的事前モデルによって改良され、正確な3Dモーションシーケンスを生成します。
最後に、この洗練されたモーションシーケンスは、複雑なアクションと相互作用を含むシナリオであっても、モーションコンシンゲーションビデオの生成を可能にする追加の条件付けと同じビデオ拡散モデルに戻されます。
私たちは、改訂がモーションの忠実度と一貫性を大幅に改善する安定したビデオ拡散に対するアプローチの有効性を検証します。
驚くべきことに、1.5Bのパラメーターのみで、複雑なビデオ生成の13B以上のパラメーターを備えた最先端のビデオ生成モデルを大幅に上回ります。
我々の結果は、3Dの物理的知識を組み込むことにより、比較的小さなビデオ拡散モデルでさえ、より大きなリアリズムと制御性と複雑な動きと相互作用を生成し、物理的にもっともらしいビデオ生成のための有望なソリューションを提供できることを示唆しています。
要約(オリジナル)
In recent years, video generation has seen significant advancements. However, challenges still persist in generating complex motions and interactions. To address these challenges, we introduce ReVision, a plug-and-play framework that explicitly integrates parameterized 3D physical knowledge into a pretrained conditional video generation model, significantly enhancing its ability to generate high-quality videos with complex motion and interactions. Specifically, ReVision consists of three stages. First, a video diffusion model is used to generate a coarse video. Next, we extract a set of 2D and 3D features from the coarse video to construct a 3D object-centric representation, which is then refined by our proposed parameterized physical prior model to produce an accurate 3D motion sequence. Finally, this refined motion sequence is fed back into the same video diffusion model as additional conditioning, enabling the generation of motion-consistent videos, even in scenarios involving complex actions and interactions. We validate the effectiveness of our approach on Stable Video Diffusion, where ReVision significantly improves motion fidelity and coherence. Remarkably, with only 1.5B parameters, it even outperforms a state-of-the-art video generation model with over 13B parameters on complex video generation by a substantial margin. Our results suggest that, by incorporating 3D physical knowledge, even a relatively small video diffusion model can generate complex motions and interactions with greater realism and controllability, offering a promising solution for physically plausible video generation.
arxiv情報
著者 | Qihao Liu,Ju He,Qihang Yu,Liang-Chieh Chen,Alan Yuille |
発行日 | 2025-04-30 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google