要約
生成モデルは、データ、計算リソース、モデル サイズの増加によるトレーニング中のスケーリング機能 (スケーリング則によって特徴付けられる現象) が主な理由で、さまざまな領域に大きな影響を与えてきました。
最近の研究では、大規模言語モデル (LLM) における推論時間のスケーリング動作の調査が開始され、推論中に計算を追加することでパフォーマンスがさらに向上する方法が明らかになりました。
LLM とは異なり、拡散モデルは本質的にノイズ除去ステップの数によって推論時間の計算を調整する柔軟性を備えていますが、通常、パフォーマンスの向上は数十ステップを超えると横ばいになります。
この研究では、ノイズ除去ステップの増加を超えた拡散モデルの推論時間スケーリング動作を調査し、計算量の増加によって生成パフォーマンスがどのようにさらに向上するかを調査します。
具体的には、拡散サンプリング プロセスに適したノイズを特定することを目的とした検索問題を検討します。
私たちは、フィードバックを提供するために使用される検証器と、より良いノイズ候補を見つけるために使用されるアルゴリズムという 2 つの軸に沿って設計空間を構造化します。
クラス条件付き画像生成ベンチマークとテキスト条件付き画像生成ベンチマークに関する広範な実験を通じて、私たちの調査結果は、推論時間の計算量を増やすと、拡散モデルによって生成されるサンプルの品質が大幅に向上すること、また画像の複雑な性質により、コンポーネントの組み合わせが大幅に向上することを明らかにしました。
フレームワークでは、さまざまなアプリケーション シナリオに適合するように特別に選択できます。
要約(オリジナル)
Generative models have made significant impacts across various domains, largely due to their ability to scale during training by increasing data, computational resources, and model size, a phenomenon characterized by the scaling laws. Recent research has begun to explore inference-time scaling behavior in Large Language Models (LLMs), revealing how performance can further improve with additional computation during inference. Unlike LLMs, diffusion models inherently possess the flexibility to adjust inference-time computation via the number of denoising steps, although the performance gains typically flatten after a few dozen. In this work, we explore the inference-time scaling behavior of diffusion models beyond increasing denoising steps and investigate how the generation performance can further improve with increased computation. Specifically, we consider a search problem aimed at identifying better noises for the diffusion sampling process. We structure the design space along two axes: the verifiers used to provide feedback, and the algorithms used to find better noise candidates. Through extensive experiments on class-conditioned and text-conditioned image generation benchmarks, our findings reveal that increasing inference-time compute leads to substantial improvements in the quality of samples generated by diffusion models, and with the complicated nature of images, combinations of the components in the framework can be specifically chosen to conform with different application scenario.
arxiv情報
著者 | Nanye Ma,Shangyuan Tong,Haolin Jia,Hexiang Hu,Yu-Chuan Su,Mingda Zhang,Xuan Yang,Yandong Li,Tommi Jaakkola,Xuhui Jia,Saining Xie |
発行日 | 2025-01-16 18:30:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google