要約
前景の被写体の動きに合わせてビデオ背景を生成することは、映画業界と視覚効果コミュニティにとって重要な問題です。
このタスクには、アーティストの創造的意図に準拠しながら、前景の被写体の動きや外観と一致する背景を合成することが含まれます。
従来は面倒な手作業が必要だったこのプロセスを自動化する生成モデルである ActAnywhere を紹介します。
私たちのモデルは大規模なビデオ拡散モデルの力を活用しており、このタスクのために特別に調整されています。
ActAnywhere は、前景の被写体のセグメンテーションのシーケンスを入力として、目的のシーンを表す画像を条件として受け取り、条件フレームを遵守しながら、現実的な前景と背景の相互作用を含む一貫したビデオを生成します。
人間とシーンのインタラクションビデオの大規模なデータセットでモデルをトレーニングします。
広範な評価により、モデルの優れたパフォーマンスが実証され、ベースラインを大幅に上回りました。
さらに、ActAnywhere が人間以外の被験者を含む多様な分布外サンプルに一般化することを示します。
プロジェクトの Web ページ (https://actanywhere.github.io) にアクセスしてください。
要約(オリジナル)
Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with the artist’s creative intention. We introduce ActAnywhere, a generative model that automates this process which traditionally requires tedious manual efforts. Our model leverages the power of large-scale video diffusion models, and is specifically tailored for this task. ActAnywhere takes a sequence of foreground subject segmentation as input and an image that describes the desired scene as condition, to produce a coherent video with realistic foreground-background interactions while adhering to the condition frame. We train our model on a large-scale dataset of human-scene interaction videos. Extensive evaluations demonstrate the superior performance of our model, significantly outperforming baselines. Moreover, we show that ActAnywhere generalizes to diverse out-of-distribution samples, including non-human subjects. Please visit our project webpage at https://actanywhere.github.io.
arxiv情報
著者 | Boxiao Pan,Zhan Xu,Chun-Hao Paul Huang,Krishna Kumar Singh,Yang Zhou,Leonidas J. Guibas,Jimei Yang |
発行日 | 2024-01-19 17:16:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google