COLE: A Hierarchical Generation Framework for Graphic Design

要約

15 世紀から進化してきたグラフィック デザインは、広告において重要な役割を果たしています。
高品質のデザインを作成するには、創造性、革新性、水平思考が必要です。
この複雑なタスクには、目的の理解、背景、装飾、フォント、色、形状などの視覚要素の作成、専門的な多様なレイアウトの策定、および基本的な視覚デザイン原則の遵守が含まれます。
本稿では、これらの課題に包括的に対処するために設計された階層型生成フレームワークである COLE を紹介します。
この COLE システムは、ユーザー入力に基づいた柔軟な編集をサポートしながら、単純な意図プロンプトを高品質なグラフィック デザインに変換することができます。
このような入力の例としては、「久石のコンサートのポスターをデザインする」などの指示が挙げられます。重要な洞察は、テキストからデザインへの生成という複雑なタスクを、より単純なサブタスクの階層に分析し、それぞれのタスクに特化したモデルが動作することで対処することです。
協力的に。
これらのモデルの結果は統合されて、一貫した最終出力が生成されます。
階層的なタスクの分解により、複雑なプロセスが合理化され、生成の信頼性が大幅に向上します。
当社の COLE システムは、複数の微調整されたラージ言語モデル (LLM)、ラージ マルチモーダル モデル (LMM)、および拡散モデル (DM) で構成されており、それぞれがデザインを意識したテキストまたは画像生成タスク向けに特別に調整されています。
さらに、ユーザーの意図から高品質のグラフィック デザインを生成する際の既存の方法に対する COLE の優位性を強調するために、DESIGNERINTENTION ベンチマークを構築しました。
私たちは、COLE が将来のより複雑なビジュアル デザイン生成タスクに対処するための重要なステップであると認識しています。

要約(オリジナル)

Graphic design, which has been evolving since the 15th century, plays a crucial role in advertising. The creation of high-quality designs demands creativity, innovation, and lateral thinking. This intricate task involves understanding the objective, crafting visual elements such as the background, decoration, font, color, and shape, formulating diverse professional layouts, and adhering to fundamental visual design principles. In this paper, we introduce COLE, a hierarchical generation framework designed to comprehensively address these challenges. This COLE system can transform a straightforward intention prompt into a high-quality graphic design, while also supporting flexible editing based on user input. Examples of such input might include directives like “design a poster for Hisaishi’s concert.” The key insight is to dissect the complex task of text-to-design generation into a hierarchy of simpler sub-tasks, each addressed by specialized models working collaboratively. The results from these models are then consolidated to produce a cohesive final output. Our hierarchical task decomposition can streamline the complex process and significantly enhance generation reliability. Our COLE system consists of multiple fine-tuned Large Language Models (LLMs), Large Multimodal Models (LMMs), and Diffusion Models (DMs), each specifically tailored for a design-aware text or image generation task. Furthermore, we construct the DESIGNERINTENTION benchmark to highlight the superiority of our COLE over existing methods in generating high-quality graphic designs from user intent. We perceive our COLE as an important step towards addressing more complex visual design generation tasks in the future.

arxiv情報

著者 Peidong Jia,Chenxuan Li,Zeyu Liu,Yichao Shen,Xingru Chen,Yuhui Yuan,Yinglin Zheng,Dong Chen,Ji Li,Xiaodong Xie,Shanghang Zhang,Baining Guo
発行日 2023-11-28 17:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク