要約
この研究では、マルチモーダルなグラフィック要素からの自動デザイン構成を調査します。
最近の研究ではグラフィック デザイン用のさまざまな生成モデルが開発されていますが、通常は次のような制限に直面しています。それらは特定のサブタスクのみに焦点を当てており、デザイン構成タスクの達成には程遠いです。
生成プロセス中にグラフィック デザインの階層情報は考慮されません。
これらの問題に取り組むために、私たちは階層化設計原理を大規模マルチモーダル モデル (LMM) に導入し、この困難なタスクを達成するための LaDeCo と呼ばれる新しいアプローチを提案します。
具体的には、LaDeCo はまず、特定の要素セットに対してレイヤー プランニングを実行し、入力要素をその内容に応じて異なるセマンティック レイヤーに分割します。
その後、プランニング結果に基づいて、デザイン構成を制御する要素の属性をレイヤーごとに予測し、以前に生成されたレイヤーのレンダリング イメージをコンテキストに含めます。
この洞察力に富んだ設計により、LaDeCo は困難なタスクを管理しやすい小さなステップに分解し、生成プロセスをよりスムーズかつ明確にします。
実験結果は、デザイン構成における LaDeCo の有効性を示しています。
さらに、LaDeCo により、解像度調整、要素の塗りつぶし、デザインのバリエーションなど、グラフィック デザインにおけるいくつかの興味深いアプリケーションが可能になることを示します。さらに、LaDeCo は、タスク固有のトレーニングを行わなくても、一部のデザイン サブタスクでは特殊なモデルよりも優れたパフォーマンスを発揮します。
要約(オリジナル)
In this work, we investigate automatic design composition from multimodal graphic elements. Although recent studies have developed various generative models for graphic design, they usually face the following limitations: they only focus on certain subtasks and are far from achieving the design composition task; they do not consider the hierarchical information of graphic designs during the generation process. To tackle these issues, we introduce the layered design principle into Large Multimodal Models (LMMs) and propose a novel approach, called LaDeCo, to accomplish this challenging task. Specifically, LaDeCo first performs layer planning for a given element set, dividing the input elements into different semantic layers according to their contents. Based on the planning results, it subsequently predicts element attributes that control the design composition in a layer-wise manner, and includes the rendered image of previously generated layers into the context. With this insightful design, LaDeCo decomposes the difficult task into smaller manageable steps, making the generation process smoother and clearer. The experimental results demonstrate the effectiveness of LaDeCo in design composition. Furthermore, we show that LaDeCo enables some interesting applications in graphic design, such as resolution adjustment, element filling, design variation, etc. In addition, it even outperforms the specialized models in some design subtasks without any task-specific training.
arxiv情報
著者 | Jiawei Lin,Shizhao Sun,Danqing Huang,Ting Liu,Ji Li,Jiang Bian |
発行日 | 2024-12-27 16:13:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google