LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

要約

迅速な表現力とテキストレンダリングの忠実度のギャップを体系的に橋渡しする高品質のテキストイメージ合成の包括的なスイートであるLex-Artを紹介します。
私たちのアプローチは、データ中心のパラダイムに従い、DeepSeek-R1に基づいた高品質のデータ合成パイプラインを構築して、10K高解像度、審美的に洗練された1024 $ \ Times $ 1024画像のデータセットであるLEX​​-10Kをキュレートします。
データセット構造を超えて、堅牢なプロンプト濃縮モデルであるLex-Enhancerを開発し、2つのテキストからイメージモデル、Lex-FluxとLex-Luminaを訓練し、最先端のテキストレンダリングパフォーマンスを実現します。
視覚的なテキスト生成を体系的に評価するために、忠実な正規化された編集距離(PNET)によって補完される忠実性、美学、およびアライメントを評価するベンチマークであるLex-Benchを紹介します。
実験は有意な改善を示し、Lex-LuminaはCreateBenchで79.81%のPNEDゲインを達成し、Lex-Fluxは色(+3.18%)、位置(+4.45%)、およびフォント精度(+3.81%)のベースラインを上回るベースラインを上回ります。
コード、モデル、データセット、デモは公開されています。

要約(オリジナル)

We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024$\times$1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

arxiv情報

著者 Shitian Zhao,Qilong Wu,Xinyue Li,Bo Zhang,Ming Li,Qi Qin,Dongyang Liu,Kaipeng Zhang,Hongsheng Li,Yu Qiao,Peng Gao,Bin Fu,Zhen Li
発行日 2025-03-27 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク