GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models


制御可能な T2I 拡散モデルの最新の進歩により、合成画像内のテキストのレンダリングに焦点を当てた研究が増えています。
この論文では、アライメント学習に基づくトリプル クロス アテンション メカニズムを利用し、LLM を活用したテキスト レンダリング機能を備えた自動ポスター生成フレームワークを提案します。
このフレームワークは、詳細な文脈背景内で正確なポスター テキストを作成することを目的としています。
さらに、このフレームワークは、制御可能なフォント、調整可能な画像解像度、英語と中国語の両方で説明とテキストを含むポスターのレンダリングをサポートしています。さらに、解像度が 1024 ピクセルを超える高解像度のフォント データセットとポスター データセットを紹介します。
私たちのアプローチは SDXL アーキテクチャを活用しています。
広範な実験により、複雑で文脈に富んだ背景を持つポスター画像を生成するこのメソッドの機能が検証されています。コードは で入手できます。


Posters play a crucial role in marketing and advertising by enhancing visual communication and brand visibility, making significant contributions to industrial design. With the latest advancements in controllable T2I diffusion models, increasing research has focused on rendering text within synthesized images. Despite improvements in text rendering accuracy, the field of automatic poster generation remains underexplored. In this paper, we propose an automatic poster generation framework with text rendering capabilities leveraging LLMs, utilizing a triple-cross attention mechanism based on alignment learning. This framework aims to create precise poster text within a detailed contextual background. Additionally, the framework supports controllable fonts, adjustable image resolution, and the rendering of posters with descriptions and text in both English and Chinese.Furthermore, we introduce a high-resolution font dataset and a poster dataset with resolutions exceeding 1024 pixels. Our approach leverages the SDXL architecture. Extensive experiments validate our method’s capability in generating poster images with complex and contextually rich backgrounds.Codes is available at


著者 Jian Ma,Yonglin Deng,Chen Chen,Haonan Lu,Zhenyu Yang
発行日 2024-08-30 12:44:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク