要約
テキストからイメージの生成の最近の進歩は、主に広範なデータセットとパラメーターが多いアーキテクチャに依存しています。
これらの要件は、実質的な計算リソースを欠く研究者と実践者のアクセシビリティを厳しく制限しています。
この論文では、知識蒸留(KD)と直接優先最適化(DPO)を使用する画像生成モデルの効率的なトレーニングパラダイムである\ Modelを紹介します。
Multi-Modal Large Language Models(MLLM)で広く採用されているデータKDテクニックの成功からインスピレーションを得て、Lightgenは、最先端の(SOTA)テキストからイメージモデルから知識を蒸留し、わずか0.70億ドルのパラメーターを持つコンパクトなマスクモデル(MAR)アーキテクチャを蒸留します。
さまざまなキャプションから生成されたわずか200万ドルの高品質の画像のコンパクトな合成データセットを使用して、データの多様性がモデルのパフォーマンスを決定する際にデータ量を大幅に上回ることを示します。
この戦略は、計算需要を劇的に削減し、トレーニング前の時間を数千のGPU日からわずか88 GPU日まで短縮します。
さらに、合成データの固有の欠点、特に高周波の詳細が不十分で空間的な不正確さに対処するために、画像の忠実度と位置の精度を改良するDPO技術を統合します。
包括的な実験では、LightgenがSOTAモデルに匹敵する画像生成の品質を達成しながら、計算リソースを大幅に削減し、リソースに制約のある環境のアクセシビリティを拡大することを確認しています。
コードはhttps://github.com/xianfengwu01/lightgenで入手できます
要約(オリジナル)
Recent advances in text-to-image generation have primarily relied on extensive datasets and parameter-heavy architectures. These requirements severely limit accessibility for researchers and practitioners who lack substantial computational resources. In this paper, we introduce \model, an efficient training paradigm for image generation models that uses knowledge distillation (KD) and Direct Preference Optimization (DPO). Drawing inspiration from the success of data KD techniques widely adopted in Multi-Modal Large Language Models (MLLMs), LightGen distills knowledge from state-of-the-art (SOTA) text-to-image models into a compact Masked Autoregressive (MAR) architecture with only $0.7B$ parameters. Using a compact synthetic dataset of just $2M$ high-quality images generated from varied captions, we demonstrate that data diversity significantly outweighs data volume in determining model performance. This strategy dramatically reduces computational demands and reduces pre-training time from potentially thousands of GPU-days to merely 88 GPU-days. Furthermore, to address the inherent shortcomings of synthetic data, particularly poor high-frequency details and spatial inaccuracies, we integrate the DPO technique that refines image fidelity and positional accuracy. Comprehensive experiments confirm that LightGen achieves image generation quality comparable to SOTA models while significantly reducing computational resources and expanding accessibility for resource-constrained environments. Code is available at https://github.com/XianfengWu01/LightGen
arxiv情報
著者 | Xianfeng Wu,Yajing Bai,Haoze Zheng,Harold Haodong Chen,Yexin Liu,Zihao Wang,Xuran Ma,Wen-Jie Shu,Xianzu Wu,Harry Yang,Ser-Nam Lim |
発行日 | 2025-03-11 16:58:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google