要約
フォトリアリックな仮想世界の構築には、さまざまな分野でアプリケーションがありますが、多くの場合、従来の3Dモデリングソフトウェアを運営するために高度に訓練された専門家の広範な労働が必要です。
このプロセスを民主化するために、大規模な言語モデル(LLM)エージェントが手続き上の生成を活用してオブジェクトを入力した屋内および屋外シーンを作成し、ユーザーが個々のオブジェクト属性と直感的な自然言語コマンドを使用してシーンレイアウトを制御できるシステムであるWorldCraftを紹介します。
私たちのフレームワークでは、コーディネーターエージェントが全体的なプロセスを管理し、2つの専門LLMエージェントと連携してシーン作成を完了します。Forgeitは、個々のオブジェクトの正確なカスタマイズを可能にするために、絶えず成長するマニュアルを自動検証を通じて統合し、配置します。
人間工学的および審美的な考慮事項のバランスをとるレイアウトを実現するための階層的最適化の問題。
さらに、パイプラインには軌道制御エージェントが組み込まれているため、ユーザーはシーンをアニメーション化し、自然言語の相互作用を通じてカメラを操作できます。
また、私たちのシステムは、シーン資産を豊かにするための既製のディープ3Dジェネレーターとも互換性があります。
最先端の方法との評価と比較を通じて、単一のオブジェクトのカスタマイズから複雑な大規模なインテリア、外部シーンのデザインに至るまで、Worldcraftの汎用性を実証します。
このシステムは、非専門家が創造的なビジョンを実現することを可能にします。
要約(オリジナル)
Constructing photorealistic virtual worlds has applications across various fields, but it often requires the extensive labor of highly trained professionals to operate conventional 3D modeling software. To democratize this process, we introduce WorldCraft, a system where large language model (LLM) agents leverage procedural generation to create indoor and outdoor scenes populated with objects, allowing users to control individual object attributes and the scene layout using intuitive natural language commands. In our framework, a coordinator agent manages the overall process and works with two specialized LLM agents to complete the scene creation: ForgeIt, which integrates an ever-growing manual through auto-verification to enable precise customization of individual objects, and ArrangeIt, which formulates hierarchical optimization problems to achieve a layout that balances ergonomic and aesthetic considerations. Additionally, our pipeline incorporates a trajectory control agent, allowing users to animate the scene and operate the camera through natural language interactions. Our system is also compatible with off-the-shelf deep 3D generators to enrich scene assets. Through evaluations and comparisons with state-of-the-art methods, we demonstrate the versatility of WorldCraft, ranging from single-object customization to intricate, large-scale interior and exterior scene designs. This system empowers non-professionals to bring their creative visions to life.
arxiv情報
著者 | Xinhang Liu,Chi-Keung Tang,Yu-Wing Tai |
発行日 | 2025-02-21 17:18:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google