要約
フロー マッチングやノイズ除去拡散モデルなど、反復プロセスを通じてサンプルを生成する動的生成モデルは広く使用されていますが、報酬の微調整によってこれらのモデルを改善するための理論的に適切な方法はあまりありませんでした。
この研究では、報酬の微調整を確率的最適制御 (SOC) としてキャストします。
重要なことに、ノイズ変数と生成されたサンプルの間の依存関係を考慮するために、微調整中に非常に具体的なメモリーレス ノイズ スケジュールを適用する必要があることが証明されています。
また、SOC 問題を回帰問題としてキャストすることにより、既存の SOC アルゴリズムを上回る、Adjoint Matching と呼ばれる新しいアルゴリズムを提案します。
私たちのアプローチは、報酬微調整の既存の方法よりも大幅に改善され、サンプルの多様性を維持しながら、より良い一貫性、現実性、目に見えない人間の好みの報酬モデルへの一般化を達成することがわかりました。
要約(オリジナル)
Dynamical generative models that produce samples through an iterative process, such as Flow Matching and denoising diffusion models, have seen widespread use, but there has not been many theoretically-sound methods for improving these models with reward fine-tuning. In this work, we cast reward fine-tuning as stochastic optimal control (SOC). Critically, we prove that a very specific memoryless noise schedule must be enforced during fine-tuning, in order to account for the dependency between the noise variable and the generated samples. We also propose a new algorithm named Adjoint Matching which outperforms existing SOC algorithms, by casting SOC problems as a regression problem. We find that our approach significantly improves over existing methods for reward fine-tuning, achieving better consistency, realism, and generalization to unseen human preference reward models, while retaining sample diversity.
arxiv情報
著者 | Carles Domingo-Enrich,Michal Drozdzal,Brian Karrer,Ricky T. Q. Chen |
発行日 | 2024-09-13 14:22:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google