要約
ポスターは、ビジュアルコミュニケーションとブランドの認知度を高めることでマーケティングと広告において重要な役割を果たし、工業デザインに大きく貢献します。
制御可能な T2I 拡散モデルの最新の進歩により、合成画像内のテキストのレンダリングに焦点を当てた研究が増えています。
テキストレンダリングの精度が向上したにもかかわらず、ポスターの自動生成の分野は依然として未開発のままです。
この論文では、アライメント学習に基づくトリプル クロス アテンション メカニズムを利用し、LLM を活用したテキスト レンダリング機能を備えた自動ポスター生成フレームワークを提案します。
このフレームワークは、詳細な文脈背景内で正確なポスター テキストを作成することを目的としています。
さらに、このフレームワークは、制御可能なフォント、調整可能な画像解像度、英語と中国語の両方で説明とテキストを含むポスターのレンダリングをサポートしています。さらに、解像度が 1024 ピクセルを超える高解像度のフォント データセットとポスター データセットを紹介します。
私たちのアプローチは SDXL アーキテクチャを活用しています。
広範な実験により、複雑で文脈に富んだ背景を持つポスター画像を生成するこのメソッドの機能が検証されています。コードは https://github.com/OPPO-Mente-Lab/GlyphDraw2 で入手できます。
要約(オリジナル)
Posters play a crucial role in marketing and advertising by enhancing visual communication and brand visibility, making significant contributions to industrial design. With the latest advancements in controllable T2I diffusion models, increasing research has focused on rendering text within synthesized images. Despite improvements in text rendering accuracy, the field of automatic poster generation remains underexplored. In this paper, we propose an automatic poster generation framework with text rendering capabilities leveraging LLMs, utilizing a triple-cross attention mechanism based on alignment learning. This framework aims to create precise poster text within a detailed contextual background. Additionally, the framework supports controllable fonts, adjustable image resolution, and the rendering of posters with descriptions and text in both English and Chinese.Furthermore, we introduce a high-resolution font dataset and a poster dataset with resolutions exceeding 1024 pixels. Our approach leverages the SDXL architecture. Extensive experiments validate our method’s capability in generating poster images with complex and contextually rich backgrounds.Codes is available at https://github.com/OPPO-Mente-Lab/GlyphDraw2.
arxiv情報
著者 | Jian Ma,Yonglin Deng,Chen Chen,Haonan Lu,Zhenyu Yang |
発行日 | 2024-08-30 12:44:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google