Graphic Design with Large Multimodal Model

要約

グラフィック デザインの分野では、デザイン要素を統合した一体性のある多層アートワークに自動化することで、生産性が向上するだけでなく、グラフィック デザインの民主化への道も開かれます。
既存の手法の 1 つは、連続したデザイン要素をレイアウトすることを目的としたグラフィック レイアウト生成 (GLG) です。
レイヤーの事前定義された正しい順序が必要であるという制約があり、創造的な可能性が制限され、ユーザーの作業負荷が増加しました。
このペーパーでは、より柔軟で実用的なセットアップとして、順序付けされていないデザイン要素のセットからグラフィック構成を作成する階層レイアウト生成 (HLG) を紹介します。
HLG タスクに取り組むために、大規模なマルチモーダル モデルに基づく最初のレイアウト生成モデルである Graphist を紹介します。
Graphist は、RGB-A 画像を入力として利用して、HLG をシーケンス生成問題として効率的に再構成し、各要素の座標、サイズ、順序を示す JSON ドラフト プロトコルを出力します。
HLG の新しい評価指標を開発します。
Graphist は従来技術を上回り、この分野の強力なベースラインを確立します。
プロジェクトのホームページ: https://github.com/graphic-design-ai/graphist

要約(オリジナル)

In the field of graphic design, automating the integration of design elements into a cohesive multi-layered artwork not only boosts productivity but also paves the way for the democratization of graphic design. One existing practice is Graphic Layout Generation (GLG), which aims to layout sequential design elements. It has been constrained by the necessity for a predefined correct sequence of layers, thus limiting creative potential and increasing user workload. In this paper, we present Hierarchical Layout Generation (HLG) as a more flexible and pragmatic setup, which creates graphic composition from unordered sets of design elements. To tackle the HLG task, we introduce Graphist, the first layout generation model based on large multimodal models. Graphist efficiently reframes the HLG as a sequence generation problem, utilizing RGB-A images as input, outputs a JSON draft protocol, indicating the coordinates, size, and order of each element. We develop new evaluation metrics for HLG. Graphist outperforms prior arts and establishes a strong baseline for this field. Project homepage: https://github.com/graphic-design-ai/graphist

arxiv情報

著者 Yutao Cheng,Zhao Zhang,Maoke Yang,Hui Nie,Chunyuan Li,Xinglong Wu,Jie Shao
発行日 2024-04-22 17:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク