要約
従来のアニメーション生成方法は、人間がラベル付けしたデータを使用した生成モデルのトレーニングに依存しており、高度な多段階パイプラインが必要となり、人間の多大な労力と高額なトレーニング コストが必要になります。
プロンプト プランが限られているため、これらの方法では通常、短く、情報が少なく、文脈が一貫性のないアニメーションが作成されます。
これらの制限を克服し、アニメーション プロセスを自動化するために、私たちは Anim-Director という名前の自律的なアニメーション作成エージェントを構築するためのコア プロセッサとして大規模マルチモーダル モデル (LMM) の導入を先駆けて行いました。
このエージェントは主に、LMM と生成 AI ツールの高度な理解と推論機能を利用して、簡潔な物語や簡単な指示からアニメーション ビデオを作成します。
具体的には、これは 3 つの主要な段階で動作します。まず、Anim-Director がユーザーの入力から一貫したストーリーラインを生成し、続いてキャラクターのプロフィール設定や内部/外部の説明、登場シーンを含む文脈に一貫したシーンの記述を含む詳細なディレクターのスクリプトを生成します。
キャラクター、内部または外部、およびシーンのイベント。
次に、画像生成ツールで LMM を使用して、設定やシーンの視覚的な画像を生成します。
これらの画像は、シーンの説明と、登場するキャラクターや設定の画像を組み合わせた視覚言語プロンプト手法を使用して、さまざまなシーン間で視覚的な一貫性を維持するように設計されています。
3 番目に、シーン画像はアニメーション ビデオを作成するための基盤として機能し、LMM はこのプロセスをガイドするプロンプトを生成します。
LMM が生成ツールとシームレスに対話してプロンプトを生成し、ビジュアル品質を評価し、最終出力を最適化するために最適なものを選択するため、プロセス全体は特に手動介入がなく自律的です。
要約(オリジナル)
Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director’s script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.
arxiv情報
著者 | Yunxin Li,Haoyuan Shi,Baotian Hu,Longyue Wang,Jiashun Zhu,Jinyi Xu,Zhen Zhao,Min Zhang |
発行日 | 2024-08-19 08:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google