要約
簡単にアクセスできる事前トレーニング済み拡散モデルがカンブリア紀に爆発的に増加していることは、大規模な結合モデルを再トレーニングするという大きな計算負荷を負うことなく、複数の異なる事前トレーニング済み拡散モデルを組み合わせる方法の需要を示唆しています。
この論文では、重ね合わせと呼ばれる新しい提案されたフレームワークの下で、生成段階で複数の事前トレーニングされた拡散モデルを組み合わせる問題を取り上げます。
理論的には、有名な連続方程式に由来する厳密な第一原理から重ね合わせを導き出し、SuperDiff で拡散モデルを結合するために特別に作られた 2 つの新しいアルゴリズムを設計します。
SuperDiff は、拡散 SDE の対数尤度に新しいスケーラブルな It\^o 密度推定器を利用します。これにより、発散計算に必要なよく知られたハッチンソン推定器と比較して追加のオーバーヘッドが発生しません。
SuperDiff は、推論中の合成を通じてのみ重ね合わせが実行されるため、大規模な事前トレーニングされた拡散モデルに拡張可能であること、また、自動再重み付けスキームを通じてさまざまな事前トレーニングされたベクトル場を結合するため、苦痛のない実装が可能であることを実証します。
特に、SuperDiff が推論時間中に効率的であり、論理 OR や論理 AND などの従来の合成演算子を模倣していることを示します。
我々は、CIFAR-10 上でより多様な画像を生成するための SuperDiff の使用の有用性、安定拡散を使用したより忠実で迅速な条件付き画像編集、およびタンパク質の無条件の de novo 構造設計の改善を実証的に示します。
https://github.com/necludov/super-diffusion
要約(オリジナル)
The Cambrian explosion of easily accessible pre-trained diffusion models suggests a demand for methods that combine multiple different pre-trained diffusion models without incurring the significant computational burden of re-training a larger combined model. In this paper, we cast the problem of combining multiple pre-trained diffusion models at the generation stage under a novel proposed framework termed superposition. Theoretically, we derive superposition from rigorous first principles stemming from the celebrated continuity equation and design two novel algorithms tailor-made for combining diffusion models in SuperDiff. SuperDiff leverages a new scalable It\^o density estimator for the log likelihood of the diffusion SDE which incurs no additional overhead compared to the well-known Hutchinson’s estimator needed for divergence calculations. We demonstrate that SuperDiff is scalable to large pre-trained diffusion models as superposition is performed solely through composition during inference, and also enjoys painless implementation as it combines different pre-trained vector fields through an automated re-weighting scheme. Notably, we show that SuperDiff is efficient during inference time, and mimics traditional composition operators such as the logical OR and the logical AND. We empirically demonstrate the utility of using SuperDiff for generating more diverse images on CIFAR-10, more faithful prompt conditioned image editing using Stable Diffusion, and improved unconditional de novo structure design of proteins. https://github.com/necludov/super-diffusion
arxiv情報
著者 | Marta Skreta,Lazar Atanackovic,Avishek Joey Bose,Alexander Tong,Kirill Neklyudov |
発行日 | 2024-12-23 18:18:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google