SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code

要約

この論文では、テキスト記述をBlenderで実行可能なPythonスクリプトに変換する大規模言語モデル(LLM)エージェントであるSceneCraftを紹介します。このプロセスは複雑な空間計画と配置を必要とします。私たちは、高度な抽象化、戦略的計画、ライブラリ学習の組み合わせによって、これらの課題に取り組んでいます。SceneCraft はまず、シーングラフをブループリントとしてモデル化し、シーン内のアセット間の空間的関係を詳細に記述します。次に SceneCraft は、このグラフに基づいて Python スクリプトを記述し、関係をアセットレイアウトの数値制約に変換します。次に、SceneCraft は GPT-V のような視覚言語基盤モデルの知覚的な強みを活用して、レンダリングされた画像を分析し、シーンを反復的に改良します。このプロセスの上に、SceneCraftは、一般的なスクリプト関数を再利用可能なライブラリにコンパイルするライブラリ学習メカニズムを備えており、高価なLLMパラメータチューニングなしで継続的な自己改善を促進します。我々の評価では、SceneCraftが複雑なシーンのレンダリングにおいて、既存のLLMベースのエージェントを凌駕していることを、制約の順守と人間による好意的な評価によって示しています。また、Sintelムービーから詳細な3Dシーンを再構築し、生成されたシーンを中間制御信号としてビデオジェネレーティブモデルを導くことで、SceneCraftの広範な応用可能性を示す。

要約(オリジナル)

This paper introduces SceneCraft, a Large Language Model (LLM) Agent converting text descriptions into Blender-executable Python scripts which render complex scenes with up to a hundred 3D assets. This process requires complex spatial planning and arrangement. We tackle these challenges through a combination of advanced abstraction, strategic planning, and library learning. SceneCraft first models a scene graph as a blueprint, detailing the spatial relationships among assets in the scene. SceneCraft then writes Python scripts based on this graph, translating relationships into numerical constraints for asset layout. Next, SceneCraft leverages the perceptual strengths of vision-language foundation models like GPT-V to analyze rendered images and iteratively refine the scene. On top of this process, SceneCraft features a library learning mechanism that compiles common script functions into a reusable library, facilitating continuous self-improvement without expensive LLM parameter tuning. Our evaluation demonstrates that SceneCraft surpasses existing LLM-based agents in rendering complex scenes, as shown by its adherence to constraints and favorable human assessments. We also showcase the broader application potential of SceneCraft by reconstructing detailed 3D scenes from the Sintel movie and guiding a video generative model with generated scenes as intermediary control signal.

arxiv情報

著者 Ziniu Hu,Ahmet Iscen,Aashi Jain,Thomas Kipf,Yisong Yue,David A. Ross,Cordelia Schmid,Alireza Fathi
発行日 2024-03-02 16:16:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク