要約
最新の視覚効果(VFX)ソフトウェアは、熟練したアーティストが事実上あらゆるもののイメージを作成することを可能にした。しかし、その制作プロセスは依然として手間がかかり、複雑で、日常的なユーザーにはほとんど手が届かない。この研究では、1つのビデオと自然言語の指示から、リアルでダイナミックなVFXビデオを自動的に作成するフレームワーク、AutoVFXを紹介する。ニューラル・シーン・モデリング、LLMベースのコード生成、物理シミュレーションを注意深く統合することで、AutoVFXは、自然言語命令で直接制御可能な、物理的根拠のあるフォトリアリスティックな編集効果を提供することができる。AutoVFXの有効性を検証するため、多様なビデオと指示に対して広範な実験を実施しました。定量的・定性的な結果から、AutoVFXは、生成品質、指示の整合性、編集の多様性、物理的な妥当性において、競合するすべての手法を大きく上回ることが示唆されました。
要約(オリジナル)
Modern visual effects (VFX) software has made it possible for skilled artists to create imagery of virtually anything. However, the creation process remains laborious, complex, and largely inaccessible to everyday users. In this work, we present AutoVFX, a framework that automatically creates realistic and dynamic VFX videos from a single video and natural language instructions. By carefully integrating neural scene modeling, LLM-based code generation, and physical simulation, AutoVFX is able to provide physically-grounded, photorealistic editing effects that can be controlled directly using natural language instructions. We conduct extensive experiments to validate AutoVFX’s efficacy across a diverse spectrum of videos and instructions. Quantitative and qualitative results suggest that AutoVFX outperforms all competing methods by a large margin in generative quality, instruction alignment, editing versatility, and physical plausibility.
arxiv情報
著者 | Hao-Yu Hsu,Zhi-Hao Lin,Albert Zhai,Hongchi Xia,Shenlong Wang |
発行日 | 2024-11-04 18:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |