要約
潜在拡散モデル (LDM) は、高品質でフォトリアリスティックな画像を生成しますが、コストのかかる複数の推論反復によって発生する遅延により、その適用性が制限される可能性があります。
LatentCRF は、ニューラル ネットワーク層として実装された連続条件付きランダム フィールド (CRF) モデルであり、LDM 内の潜在ベクトル間の空間的および意味論的な関係をモデル化します。
計算集約型の LDM 推論反復の一部を軽量の LatentCRF に置き換えることで、品質、速度、多様性の間の優れたバランスを実現します。
完全な LDM と比較して、画質や多様性を損なうことなく推論効率を 33% 向上させます。
LatentCRF は簡単なアドオンであり、LDM を変更する必要はありません。
要約(オリジナル)
Latent Diffusion Models (LDMs) produce high-quality, photo-realistic images, however, the latency incurred by multiple costly inference iterations can restrict their applicability. We introduce LatentCRF, a continuous Conditional Random Field (CRF) model, implemented as a neural network layer, that models the spatial and semantic relationships among the latent vectors in the LDM. By replacing some of the computationally-intensive LDM inference iterations with our lightweight LatentCRF, we achieve a superior balance between quality, speed and diversity. We increase inference efficiency by 33% with no loss in image quality or diversity compared to the full LDM. LatentCRF is an easy add-on, which does not require modifying the LDM.
arxiv情報
著者 | Kanchana Ranasinghe,Sadeep Jayasumana,Andreas Veit,Ayan Chakrabarti,Daniel Glasner,Michael S Ryoo,Srikumar Ramalingam,Sanjiv Kumar |
発行日 | 2024-12-24 18:51:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google