MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

要約

キャラクター ビデオ合成は、本物のようなシーン内でアニメーション化可能なキャラクターのリアルなビデオを作成することを目的としています。
コンピュータ ビジョンおよびグラフィックスのコミュニティにおける根本的な問題として、3D 作品では通常、ケースごとのトレーニングのためにマルチビュー キャプチャが必要となるため、短時間で任意のキャラクターをモデリングする適用性が大幅に制限されます。
最近の 2D 手法は、事前トレーニングされた拡散モデルによってこの制限を打破しますが、ポーズの一般性とシーンの相互作用に苦労しています。
この目的のために、我々は単純なユーザー入力によって提供される制御可能な属性(つまり、キャラクター、モーション、シーン)を備えたキャラクタービデオを合成するだけでなく、任意のキャラクターに対する高度な拡張性と新しい3Dへの汎用性を同時に実現できる新しいフレームワークであるMIMOを提案します。
統合されたフレームワークでのインタラクティブな現実世界のシーンへの適用性。
中心的なアイデアは、ビデオの発生に固有の 3D の性質を考慮して、2D ビデオをコンパクトな空間コードにエンコードすることです。
具体的には、単眼深度推定器を使用して 2D フレーム ピクセルを 3D にリフトし、3D 深度に基づいてビデオ クリップを階層レイヤー内の 3 つの空間コンポーネント (つまり、主要な人物、その下にあるシーン、およびフローティング オクルージョン) に分解します。
これらのコンポーネントはさらに、正準識別コード、構造化モーション コード、およびフル シーン コードにエンコードされ、合成プロセスの制御信号として利用されます。
空間分解モデリングの設計により、柔軟なユーザー制御、複雑なモーション表現、およびシーン インタラクションのための 3D 対応合成が可能になります。
実験結果は、提案された方法の有効性と堅牢性を示しています。

要約(オリジナル)

Character video synthesis aims to produce realistic videos of animatable characters within lifelike scenes. As a fundamental problem in the computer vision and graphics community, 3D works typically require multi-view captures for per-case training, which severely limits their applicability of modeling arbitrary characters in a short time. Recent 2D methods break this limitation via pre-trained diffusion models, but they struggle for pose generality and scene interaction. To this end, we propose MIMO, a novel framework which can not only synthesize character videos with controllable attributes (i.e., character, motion and scene) provided by simple user inputs, but also simultaneously achieve advanced scalability to arbitrary characters, generality to novel 3D motions, and applicability to interactive real-world scenes in a unified framework. The core idea is to encode the 2D video to compact spatial codes, considering the inherent 3D nature of video occurrence. Concretely, we lift the 2D frame pixels into 3D using monocular depth estimators, and decompose the video clip to three spatial components (i.e., main human, underlying scene, and floating occlusion) in hierarchical layers based on the 3D depth. These components are further encoded to canonical identity code, structured motion code and full scene code, which are utilized as control signals of synthesis process. The design of spatial decomposed modeling enables flexible user control, complex motion expression, as well as 3D-aware synthesis for scene interactions. Experimental results demonstrate effectiveness and robustness of the proposed method.

arxiv情報

著者 Yifang Men,Yuan Yao,Miaomiao Cui,Liefeng Bo
発行日 2024-09-24 15:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク