VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer

要約

魔法と幻想を作成することは、映画製作の最もスリリングな側面の1つであり、視覚効果(VFX)は忘れられない映画の経験の背後にある大国として機能します。
生成的人工知能の最近の進歩は、一般的な画像とビデオの統合の進歩を促進していますが、制御可能なVFX生成の領域は比較的目立たないままです。
この作業では、画像アニメーションとしてアニメーションVFX生成の新しいパラダイムを提案します。ここでは、ユーザーフレンドリーなテキスト説明と静的参照画像から動的効果が生成されます。
私たちの作業は、2つの主要な貢献をしています。(i)Open-VFX、テキストの説明、空間条件付けのためのインスタンスセグメンテーションマスク、および時間制御の開始時のタイムスタンプが注釈が付けられた15の多様な効果カテゴリにまたがる最初の高品質のVFXビデオデータセット。
(ii)VFX作成者、ビデオ拡散トランスに基づくシンプルで効果的な制御可能なVFX生成フレームワーク。
このモデルには、空間的および時間制御可能なLORAアダプターが組み込まれており、最小限のトレーニングビデオが必要です。
具体的には、プラグアンドプレイマスク制御モジュールはインスタンスレベルの空間操作を可能にし、テキストエンコーダーと一緒に拡散プロセスに埋め込まれたトークン化された開始モーションタイムスタンプは、効果のタイミングとペースを正確に一時的に制御できます。
オープンVFXテストセットでの広範な実験は、現実的かつ動的な効果を生み出す上で提案されたシステムの優位性を示しており、空間的および時間的制御性の両方で最先端のパフォーマンスと一般化能力を達成します。
さらに、時間制御の精度を評価するために特殊なメトリックを導入します。
伝統的なVFXテクニックを生成的アプローチでブリッジングすることにより、VFX作成者は、効率的で高品質のビデオ効果生成の新しい可能性を解き放ち、高度なVFXをより多くの視聴者がアクセスできるようにします。

要約(オリジナル)

Crafting magic and illusions is one of the most thrilling aspects of filmmaking, with visual effects (VFX) serving as the powerhouse behind unforgettable cinematic experiences. While recent advances in generative artificial intelligence have driven progress in generic image and video synthesis, the domain of controllable VFX generation remains relatively underexplored. In this work, we propose a novel paradigm for animated VFX generation as image animation, where dynamic effects are generated from user-friendly textual descriptions and static reference images. Our work makes two primary contributions: (i) Open-VFX, the first high-quality VFX video dataset spanning 15 diverse effect categories, annotated with textual descriptions, instance segmentation masks for spatial conditioning, and start-end timestamps for temporal control. (ii) VFX Creator, a simple yet effective controllable VFX generation framework based on a Video Diffusion Transformer. The model incorporates a spatial and temporal controllable LoRA adapter, requiring minimal training videos. Specifically, a plug-and-play mask control module enables instance-level spatial manipulation, while tokenized start-end motion timestamps embedded in the diffusion process, alongside the text encoder, allow precise temporal control over effect timing and pace. Extensive experiments on the Open-VFX test set demonstrate the superiority of the proposed system in generating realistic and dynamic effects, achieving state-of-the-art performance and generalization ability in both spatial and temporal controllability. Furthermore, we introduce a specialized metric to evaluate the precision of temporal control. By bridging traditional VFX techniques with generative approaches, VFX Creator unlocks new possibilities for efficient and high-quality video effect generation, making advanced VFX accessible to a broader audience.

arxiv情報

著者 Xinyu Liu,Ailing Zeng,Wei Xue,Harry Yang,Wenhan Luo,Qifeng Liu,Yike Guo
発行日 2025-04-01 07:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク