CogCartoon: Towards Practical Story Visualization

要約

ストーリーを視覚化するための最先端の手法では、トレーニング データとストレージに対する大きな需要があり、ストーリーのプレゼンテーションの柔軟性が限られているため、現実世界のアプリケーションには非現実的です。
事前にトレーニングされた拡散モデルに基づいた実用的なストーリー視覚化手法である CogCartoon を紹介します。
データとストレージへの依存を軽減するために、いくつかのトレーニング サンプルを使用して特定のキャラクターをコンパクトな 316 KB プラグインとして表現できるキャラクター プラグイン生成の革新的な戦略を提案します。
柔軟性の強化を促進するために、プラグイン ガイドおよびレイアウト ガイドによる推論の戦略を採用し、ユーザーが都合の良いときに、生成された画像結果に新しい文字やカスタム レイアウトをシームレスに組み込むことができるようにします。
私たちは包括的な定性的および定量的研究を実施し、既存の方法論に対する CogCartoon の優位性についての説得力のある証拠を提供しました。
さらに、CogCartoon は、長編ストーリーの視覚化やリアルなスタイルのストーリーの視覚化など、難しいタスクに取り組む際にも威力を発揮します。

要約(オリジナル)

The state-of-the-art methods for story visualization demonstrate a significant demand for training data and storage, as well as limited flexibility in story presentation, thereby rendering them impractical for real-world applications. We introduce CogCartoon, a practical story visualization method based on pre-trained diffusion models. To alleviate dependence on data and storage, we propose an innovative strategy of character-plugin generation that can represent a specific character as a compact 316 KB plugin by using a few training samples. To facilitate enhanced flexibility, we employ a strategy of plugin-guided and layout-guided inference, enabling users to seamlessly incorporate new characters and custom layouts into the generated image results at their convenience. We have conducted comprehensive qualitative and quantitative studies, providing compelling evidence for the superiority of CogCartoon over existing methodologies. Moreover, CogCartoon demonstrates its power in tackling challenging tasks, including long story visualization and realistic style story visualization.

arxiv情報

著者 Zhongyang Zhu,Jie Tang
発行日 2023-12-17 13:39:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク