言語エージェントベースの社会による自動化された意思決定の最近の進歩を動機として、この文書では、構築された 3D 仮想空間でのエンドツーエンドの映画自動化のための、新しい LLM ベースのマルチエージェント協調フレームワークである FilmAgent を紹介します。
FilmAgent は、監督、脚本家、俳優、撮影監督などのさまざまなスタッフの役割をシミュレートし、映画制作ワークフローの主要な段階をカバーします。(1) アイデア開発は、ブレインストーミングされたアイデアを構造化されたストーリーのアウトラインに変換します。
(2) 脚本は各シーンの会話とキャラクターの行動を詳しく説明します。
(3) 映画撮影法により、各ショットのカメラ設定が決まります。
生成されたビデオを 15 のアイデアと 4 つの主要な側面で評価します。
人間による評価では、FilmAgent があらゆる面ですべてのベースラインを上回っており、平均 5 点中 3.98 のスコアを獲得しており、映画制作におけるマルチエージェントのコラボレーションの実現可能性を示しています。
さらに分析すると、FilmAgent は、それほど高度ではない GPT-4o モデルを使用しているにもかかわらず、シングル エージェント o1 を上回っており、よく調整されたマルチエージェント システムの利点を示していることがわかります。
最後に、映画制作における OpenAI のテキストからビデオへのモデル Sora と FilmAgent の補完的な長所と短所について説明します。
Virtual film production requires intricate decision-making processes, including scriptwriting, virtual cinematography, and precise actor positioning and actions. Motivated by recent advances in automated decision-making with language agent-based societies, this paper introduces FilmAgent, a novel LLM-based multi-agent collaborative framework for end-to-end film automation in our constructed 3D virtual spaces. FilmAgent simulates various crew roles, including directors, screenwriters, actors, and cinematographers, and covers key stages of a film production workflow: (1) idea development transforms brainstormed ideas into structured story outlines; (2) scriptwriting elaborates on dialogue and character actions for each scene; (3) cinematography determines the camera setups for each shot. A team of agents collaborates through iterative feedback and revisions, thereby verifying intermediate scripts and reducing hallucinations. We evaluate the generated videos on 15 ideas and 4 key aspects. Human evaluation shows that FilmAgent outperforms all baselines across all aspects and scores 3.98 out of 5 on average, showing the feasibility of multi-agent collaboration in filmmaking. Further analysis reveals that FilmAgent, despite using the less advanced GPT-4o model, surpasses the single-agent o1, showing the advantage of a well-coordinated multi-agent system. Lastly, we discuss the complementary strengths and weaknesses of OpenAI’s text-to-video model Sora and our FilmAgent in filmmaking.
著者 | Zhenran Xu,Longyue Wang,Jifang Wang,Zhouyi Li,Senbao Shi,Xue Yang,Yiyu Wang,Baotian Hu,Jun Yu,Min Zhang |
発行日 | 2025-01-22 14:36:30+00:00 |
arxivサイト | arxiv_id(pdf) |
