GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration

要約

テキストからビデオへの生成モデルは、近年大幅な進歩を示しています。
しかし、複数のオブジェクトの属性バインディング、さまざまなオブジェクトに関連付けられた時間的ダイナミクス、オブジェクト間の相互作用など、構成テキスト プロンプトに基づいて複雑な動的シーンを生成することに依然として苦労しています。
私たちの主な動機は、複雑なタスクをより単純なタスクに分解でき、それぞれのタスクを役割に特化した MLLM エージェントが処理できることです。
複数のエージェントが連携して、複雑な目標に向けた集合的なインテリジェンスを実現できます。
私たちは、構成的なテキストからビデオへの生成を可能にする、反復的なマルチエージェント フレームワークである GenMAC を提案します。
共同ワークフローには、設計、生成、再設計の 3 つのステージが含まれており、生成ステージと再設計ステージの間に反復ループがあり、生成されたビデオを段階的に検証して改良します。
再設計ステージは、生成されたビデオを検証し、修正を提案し、次の生成反復に向けてテキスト プロンプト、フレームごとのレイアウト、ガイダンス スケールを再設計することを目的とした最も困難なステージです。
単一の MLLM エージェントの幻覚を回避するために、このステージを、順次実行される 4 つの MLLM ベースのエージェント (検証エージェント、提案エージェント、修正エージェント、出力構造化エージェント) に分解します。
さらに、構成的なテキストからビデオへの生成の多様なシナリオに取り組むために、それぞれが 1 つのシナリオに特化した修正エージェントのコレクションから適切な修正エージェントを適応的に選択する自己ルーティング メカニズムを設計します。
広範な実験により、GenMAC の有効性が実証され、構成的なテキストからビデオへの生成において最先端のパフォーマンスが達成されます。

要約(オリジナル)

Text-to-video generation models have shown significant progress in the recent years. However, they still struggle with generating complex dynamic scenes based on compositional text prompts, such as attribute binding for multiple objects, temporal dynamics associated with different objects, and interactions between objects. Our key motivation is that complex tasks can be decomposed into simpler ones, each handled by a role-specialized MLLM agent. Multiple agents can collaborate together to achieve collective intelligence for complex goals. We propose GenMAC, an iterative, multi-agent framework that enables compositional text-to-video generation. The collaborative workflow includes three stages: Design, Generation, and Redesign, with an iterative loop between the Generation and Redesign stages to progressively verify and refine the generated videos. The Redesign stage is the most challenging stage that aims to verify the generated videos, suggest corrections, and redesign the text prompts, frame-wise layouts, and guidance scales for the next iteration of generation. To avoid hallucination of a single MLLM agent, we decompose this stage to four sequentially-executed MLLM-based agents: verification agent, suggestion agent, correction agent, and output structuring agent. Furthermore, to tackle diverse scenarios of compositional text-to-video generation, we design a self-routing mechanism to adaptively select the proper correction agent from a collection of correction agents each specialized for one scenario. Extensive experiments demonstrate the effectiveness of GenMAC, achieving state-of-the art performance in compositional text-to-video generation.

arxiv情報

著者 Kaiyi Huang,Yukun Huang,Xuefei Ning,Zinan Lin,Yu Wang,Xihui Liu
発行日 2024-12-05 18:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク