要約
拡散モデルは、反復的な除去プロセスを介して入力プロンプトの高忠実度画像を生成する能力でよく知られています。
残念ながら、高い忠実度は、本質的に連続的な生成プロセスのために高い計算コストでもたらされます。
この作業では、品質と計算コストのバランスを最適にし、その複雑さに応じて、各プロンプトの計算量が変化するようにフレームワークを提案します。
各プロンプトは、拡散モデルの明確な数の除去ステップ、または異なる独立したテキストからイメージモデルの明確な数の除去ステップに対応する可能性がある、最も適切なテキストからイメージまでの生成関数に自動的にルーティングされます。
均一なコスト削減技術(例:蒸留、モデルの量子化)とは異なり、私たちのアプローチは、いくつかの複雑なプロンプトに対してのみ高価な選択肢(100+除去ステップ)を予約することを学ぶことにより、最適なトレードオフを達成し、より洗練されていないプロンプトにより経済的な選択(例えば、小さな蒸留モデル)を採用します。
CocoとdiffusionDBで、9つの訓練を受けたテキストからイメージモデルへのルーティングを学習することにより、これらのモデルだけで達成可能な平均品質を実現できることを経験的に実証しています。
要約(オリジナル)
Diffusion models are well known for their ability to generate a high-fidelity image for an input prompt through an iterative denoising process. Unfortunately, the high fidelity also comes at a high computational cost due the inherently sequential generative process. In this work, we seek to optimally balance quality and computational cost, and propose a framework to allow the amount of computation to vary for each prompt, depending on its complexity. Each prompt is automatically routed to the most appropriate text-to-image generation function, which may correspond to a distinct number of denoising steps of a diffusion model, or a disparate, independent text-to-image model. Unlike uniform cost reduction techniques (e.g., distillation, model quantization), our approach achieves the optimal trade-off by learning to reserve expensive choices (e.g., 100+ denoising steps) only for a few complex prompts, and employ more economical choices (e.g., small distilled model) for less sophisticated prompts. We empirically demonstrate on COCO and DiffusionDB that by learning to route to nine already-trained text-to-image models, our approach is able to deliver an average quality that is higher than that achievable by any of these models alone.
arxiv情報
著者 | Qinchan,Li,Kenneth Chen,Changyue,Su,Wittawat Jitkrittum,Qi Sun,Patsorn Sangkloy |
発行日 | 2025-06-17 17:48:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google