PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM

要約

レイアウト生成は、自動グラフィック デザインを実現するための要であり、さまざまなマルチモーダル デザイン要素の位置とサイズを、見た目が美しく、制約に従った方法で配置する必要があります。
以前のアプローチは、大規模なアプリケーションに対して非効率的であるか、さまざまな設計要件に対する柔軟性に欠けています。
私たちの研究では、マルチモーダル大規模言語モデル (MLLM) を活用して、多様な設計タスクに対応する自動グラフィック レイアウト生成のための統一フレームワークを導入しています。
対照的に、当社のデータ駆動型手法では、構造化テキスト (JSON 形式) と視覚的命令チューニングを採用し、ユーザー定義の自然言語仕様を含む特定の視覚的およびテキスト的制約の下でレイアウトを生成します。
私たちは広範な実験を実施し、公開マルチモーダル レイアウト生成ベンチマークで最先端 (SOTA) のパフォーマンスを達成し、私たちの方法の有効性を実証しました。
さらに、現実世界のグラフィック デザインの複雑さを捉える際の既存のデータセットの限界を認識し、より困難なタスク (ユーザー制約の生成と複雑なポスター) 用に 2 つの新しいデータセットを提案し、現実の設定におけるモデルの有用性をさらに検証します。
優れたアクセシビリティと適応性を特徴とするこのアプローチは、大規模なグラフィック デザイン タスクをさらに自動化します。
コードとデータセットは https://github.com/posterllava/PosterLLaVA で公開されます。

要約(オリジナル)

Layout generation is the keystone in achieving automated graphic design, requiring arranging the position and size of various multi-modal design elements in a visually pleasing and constraint-following manner. Previous approaches are either inefficient for large-scale applications or lack flexibility for varying design requirements. Our research introduces a unified framework for automated graphic layout generation, leveraging the multi-modal large language model (MLLM) to accommodate diverse design tasks. In contrast, our data-driven method employs structured text (JSON format) and visual instruction tuning to generate layouts under specific visual and textual constraints, including user-defined natural language specifications. We conducted extensive experiments and achieved state-of-the-art (SOTA) performance on public multi-modal layout generation benchmarks, demonstrating the effectiveness of our method. Moreover, recognizing existing datasets’ limitations in capturing the complexity of real-world graphic designs, we propose two new datasets for much more challenging tasks (user-constrained generation and complicated poster), further validating our model’s utility in real-life settings. Marking by its superior accessibility and adaptability, this approach further automates large-scale graphic design tasks. The code and datasets will be publicly available on https://github.com/posterllava/PosterLLaVA.

arxiv情報

著者 Tao Yang,Yingmin Luo,Zhongang Qi,Yang Wu,Ying Shan,Chang Wen Chen
発行日 2024-07-01 09:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク