Fine-tuning of diffusion models via stochastic control: entropy regularization and beyond

要約

この論文は、上原らによって最近提案された連続時間拡散モデルのコンテキストにおけるエントロピー正規化微調整の問題に対する厳密な処理を開発し、提供することを目的としています。
(arXiv:2402.15194、2024)。
このアイデアは、サンプル生成に確率的制御を使用することであり、報酬の崩壊を軽減するためにエントロピー正則化機能が導入されます。
また、解析を一般的な $f$-divergence 正則化子を含む微調整に拡張する方法も示します。

要約(オリジナル)

This paper aims to develop and provide a rigorous treatment to the problem of entropy regularized fine-tuning in the context of continuous-time diffusion models, which was recently proposed by Uehara et al. (arXiv:2402.15194, 2024). The idea is to use stochastic control for sample generation, where the entropy regularizer is introduced to mitigate reward collapse. We also show how the analysis can be extended to fine-tuning involving a general $f$-divergence regularizer.

arxiv情報

著者 Wenpin Tang
発行日 2024-03-12 16:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク