Alignment of Diffusion Models: Fundamentals, Challenges, and Future

要約

拡散モデルは生成モデリングの主要なパラダイムとして台頭しており、さまざまなアプリケーションで優れています。
これらのモデルは成功しているにもかかわらず、人間の意図と一致しないことが多く、テキスト プロンプトと一致しなかったり、望ましい特性を備えていなかったりする出力が生成されます。
大規模な言語モデルの調整における調整の成功に触発されて、最近の研究では、拡散モデルを人間の期待や好みに調整することが研究されています。
この研究では主に拡散モデルの調整をレビューし、調整の基礎、拡散モデルの調整技術、選好ベンチマーク、拡散モデルの評価の進歩を取り上げます。
さらに、現在の課題に関する重要な視点と、普及モデルの調整における残りの課題を解決するための有望な将来の方向性について議論します。
私たちの知る限り、私たちの研究は、研究者と技術者が拡散モデルを理解し、実践し、調整を研究するための最初の包括的なレビュー論文です。

要約(オリジナル)

Diffusion models have emerged as the leading paradigm in generative modeling, excelling in various applications. Despite their success, these models often misalign with human intentions, generating outputs that may not match text prompts or possess desired properties. Inspired by the success of alignment in tuning large language models, recent studies have investigated aligning diffusion models with human expectations and preferences. This work mainly reviews alignment of diffusion models, covering advancements in fundamentals of alignment, alignment techniques of diffusion models, preference benchmarks, and evaluation for diffusion models. Moreover, we discuss key perspectives on current challenges and promising future directions on solving the remaining challenges in alignment of diffusion models. To the best of our knowledge, our work is the first comprehensive review paper for researchers and engineers to comprehend, practice, and research alignment of diffusion models.

arxiv情報

著者 Buhua Liu,Shitong Shao,Bao Li,Lichen Bai,Zhiqiang Xu,Haoyi Xiong,James Kwok,Sumi Helal,Zeke Xie
発行日 2024-09-12 13:21:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク