Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models

要約

従来のビジュアルストーリーテリングは複雑であり、専門的な知識と多大なリソースを必要としますが、人間の創造性と作成の精度によって制約されることがよくあります。
Large Language Model (LLM) は視覚的なストーリーテリングを強化しますが、現在のアプローチは多くの場合 2D ビジュアルに限定されたり、モーション合成や動作シミュレーションを通じてストーリーを過度に単純化したりして、包括的で多次元の物語を作成できません。
この目的を達成するために、LLM の機能を活用して、提供されたナラティブを 3D レンダリングされたビジュアライゼーションに変換する先駆的なアプローチである Story3D-Agent を紹介します。
プロシージャルモデリングを統合することにより、当社のアプローチは、複数のキャラクターのアクションやモーション、さらには多様な装飾要素を正確に制御することを可能にし、長距離かつダイナミックな 3D 表現を保証します。
さらに、私たちの方法は論理的推論による物語の拡張をサポートし、生​​成されたコンテンツが既存の条件と一貫性を保つことを保証します。
私たちは Story3D-Agent を徹底的に評価してその有効性を検証し、3D ストーリー表現を進化させるための基本フレームワークを提供しました。

要約(オリジナル)

Traditional visual storytelling is complex, requiring specialized knowledge and substantial resources, yet often constrained by human creativity and creation precision. While Large Language Models (LLMs) enhance visual storytelling, current approaches often limit themselves to 2D visuals or oversimplify stories through motion synthesis and behavioral simulation, failing to create comprehensive, multi-dimensional narratives. To this end, we present Story3D-Agent, a pioneering approach that leverages the capabilities of LLMs to transform provided narratives into 3D-rendered visualizations. By integrating procedural modeling, our approach enables precise control over multi-character actions and motions, as well as diverse decorative elements, ensuring the long-range and dynamic 3D representation. Furthermore, our method supports narrative extension through logical reasoning, ensuring that generated content remains consistent with existing conditions. We have thoroughly evaluated our Story3D-Agent to validate its effectiveness, offering a basic framework to advance 3D story representation.

arxiv情報

著者 Yuzhou Huang,Yiran Qin,Shunlin Lu,Xintao Wang,Rui Huang,Ying Shan,Ruimao Zhang
発行日 2024-08-21 17:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク