要約
最近、FluxやIdeogram 2.0などの最先端のテキストから画像から画像から画像への生成モデルは、文レベルの視覚テキストレンダリングに大きな進歩を遂げました。
このペーパーでは、記事レベルの視覚テキストのより挑戦的なシナリオに焦点を当て、ユーザーが提供する記事レベルの記述プロンプトと超密度の高いレイアウトに基づいて、インフォグラフィックやスライドなどの高品質のビジネスコンテンツを生成する新しいタスクを生成します。
基本的な課題は2つあります。コンテキストの長さが大幅に長く、高品質のビジネスコンテンツデータの希少性です。
限られた数のサブリージョンと文レベルのプロンプトに焦点を当てた以前のほとんどの作品とは対照的に、ビジネスコンテンツの数十または数百のサブリージョンを備えた超高密度のレイアウトを正確に遵守することははるかに困難です。
(i)スケーラブルで高品質のビジネスコンテンツデータセットの構築、つまり、レイヤーごとの検索された回収されたインフォグラフィック生成スキームを実装することにより、超密度の高いレイアウトとプロンプトを装備したインフォグラフィックス650Kの構築。
(ii)レイアウト誘導クロス注意スキーム。これは、超密度の高いレイアウトに従って、トリミングされた領域潜在スペースのセットに地域ごとの数十のプロンプトを注入し、レイアウト条件付きCFGを使用して推論中に各サブ地域を柔軟に改良します。
BizevalプロンプトセットのフラックスやSD3などの以前のSOTAシステムと比較して、システムの強力な結果を示します。
さらに、各コンポーネントの有効性を検証するために、徹底的なアブレーション実験を実施します。
私たちの構築されたインフォグラフィックス650Kとビゼバルが、より広範なコミュニティがビジネスコンテンツ生成の進歩を進めることを奨励できることを願っています。
要約(オリジナル)
Recently, state-of-the-art text-to-image generation models, such as Flux and Ideogram 2.0, have made significant progress in sentence-level visual text rendering. In this paper, we focus on the more challenging scenarios of article-level visual text rendering and address a novel task of generating high-quality business content, including infographics and slides, based on user provided article-level descriptive prompts and ultra-dense layouts. The fundamental challenges are twofold: significantly longer context lengths and the scarcity of high-quality business content data. In contrast to most previous works that focus on a limited number of sub-regions and sentence-level prompts, ensuring precise adherence to ultra-dense layouts with tens or even hundreds of sub-regions in business content is far more challenging. We make two key technical contributions: (i) the construction of scalable, high-quality business content dataset, i.e., Infographics-650K, equipped with ultra-dense layouts and prompts by implementing a layer-wise retrieval-augmented infographic generation scheme; and (ii) a layout-guided cross attention scheme, which injects tens of region-wise prompts into a set of cropped region latent space according to the ultra-dense layouts, and refine each sub-regions flexibly during inference using a layout conditional CFG. We demonstrate the strong results of our system compared to previous SOTA systems such as Flux and SD3 on our BizEval prompt set. Additionally, we conduct thorough ablation experiments to verify the effectiveness of each component. We hope our constructed Infographics-650K and BizEval can encourage the broader community to advance the progress of business content generation.
arxiv情報
著者 | Yuyang Peng,Shishi Xiao,Keming Wu,Qisheng Liao,Bohan Chen,Kevin Lin,Danqing Huang,Ji Li,Yuhui Yuan |
発行日 | 2025-03-26 16:04:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google