GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

要約

テキストからビデオへの生成における最近の進歩では、拡散モデルの力を利用して、テキスト プロンプトを条件とした視覚的に説得力のあるコンテンツが作成されています。
ただし、通常、高い計算コストが発生し、一貫した物理的な動きを持つビデオを作成するのに苦労することがよくあります。
これらの問題に取り組むために、私たちは GPT などの大規模言語モデルの計画能力、Blender の物理シミュレーション強度、およびテキストから画像への拡散モデルの優れた画像生成能力を活用して、トレーニング不要のフレームワークである GPT4Motion を提案します。
ビデオ合成の品質。
具体的には、GPT4Motion は GPT-4 を使用して、ユーザーのテキスト プロンプトに基づいて Blender スクリプトを生成します。このスクリプトは、Blender の内蔵物理エンジンに命令して、フレーム全体にわたる一貫した物理モーションをカプセル化する基本的なシーン コンポーネントを作成します。
次に、これらのコンポーネントが Stable Diffusion に入力されて、テキスト プロンプトに合わせたビデオが生成されます。
剛体の落下と衝突、布のドレープと揺れ、液体の流れを含む 3 つの基本的な物理動作シナリオに関する実験結果は、GPT4Motion が動作の一貫性とエンティティの一貫性を維持しながら高品質のビデオを効率的に生成できることを実証しています。
GPT4Motion は、テキストからビデオへの研究に新たな洞察を提供し、その品質を向上させ、将来の探求の視野を広げます。

要約(オリジナル)

Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender’s built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for future explorations.

arxiv情報

著者 Jiaxi Lv,Yi Huang,Mingfu Yan,Jiancheng Huang,Jianzhuang Liu,Yifan Liu,Yafei Wen,Xiaoxin Chen,Shifeng Chen
発行日 2023-11-21 14:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク