要約
ストーリーを正確に視覚化するには、フレーム間の同一性の一貫性、プレーン テキストとビジュアル コンテンツ間の位置合わせ、画像内のオブジェクトの合理的なレイアウトなど、いくつかの必要な要素が必要です。
これまでのほとんどの研究では、同じスタイルと同じ文字を含むビデオのセット (FlintstonesSV データセットなど) にテキストから画像 (T2I) モデルを適合させることで、これらの要件を満たすよう努めてきました。
ただし、学習された T2I モデルは通常、新しいキャラクター、シーン、スタイルに適応するのに苦労し、合成画像のレイアウトを修正する柔軟性に欠けていることがよくあります。
この論文は、複数の新しいキャラクターを処理し、レイアウトとローカル構造の編集をサポートできる、一般的なインタラクティブなストーリー視覚化のためのシステムを提案します。
これは、大規模な言語および大規模なコーパスでトレーニングされた T2I モデルに関する事前知識を活用して開発されています。
このシステムは、ストーリーからプロンプトへの生成 (S2P)、テキストからレイアウトへの生成 (T2L)、制御可能なテキストから画像への生成 (C-T2I)、および画像からビデオへのアニメーション (I2V) という 4 つの相互接続されたコンポーネントで構成されています。
。
まず、S2P モジュールは、簡潔なストーリー情報を後続の段階に必要な詳細なプロンプトに変換します。
次に、T2L はプロンプトに基づいて多様で合理的なレイアウトを生成し、ユーザーが好みに合わせてレイアウトを調整および改良できる機能を提供します。
コア コンポーネントである C-T2I を使用すると、レイアウト、スケッチ、アクター固有の識別子に基づいて画像を作成し、ビジュアライゼーション全体で一貫性と詳細を維持できます。
最後に、I2V は、生成された画像をアニメーション化することで視覚化プロセスを強化します。
提案されたシステムの対話型編集の有効性と柔軟性を検証するために、広範な実験とユーザー調査が行われます。
要約(オリジナル)
Accurate Story visualization requires several necessary elements, such as identity consistency across frames, the alignment between plain text and visual content, and a reasonable layout of objects in images. Most previous works endeavor to meet these requirements by fitting a text-to-image (T2I) model on a set of videos in the same style and with the same characters, e.g., the FlintstonesSV dataset. However, the learned T2I models typically struggle to adapt to new characters, scenes, and styles, and often lack the flexibility to revise the layout of the synthesized images. This paper proposes a system for generic interactive story visualization, capable of handling multiple novel characters and supporting the editing of layout and local structure. It is developed by leveraging the prior knowledge of large language and T2I models, trained on massive corpora. The system comprises four interconnected components: story-to-prompt generation (S2P), text-to-layout generation (T2L), controllable text-to-image generation (C-T2I), and image-to-video animation (I2V). First, the S2P module converts concise story information into detailed prompts required for subsequent stages. Next, T2L generates diverse and reasonable layouts based on the prompts, offering users the ability to adjust and refine the layout to their preference. The core component, C-T2I, enables the creation of images guided by layouts, sketches, and actor-specific identifiers to maintain consistency and detail across visualizations. Finally, I2V enriches the visualization process by animating the generated images. Extensive experiments and a user study are conducted to validate the effectiveness and flexibility of interactive editing of the proposed system.
arxiv情報
著者 | Yuan Gong,Youxin Pang,Xiaodong Cun,Menghan Xia,Yingqing He,Haoxin Chen,Longyue Wang,Yong Zhang,Xintao Wang,Ying Shan,Yujiu Yang |
発行日 | 2023-05-30 08:54:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google