Aligning Text-to-Image Diffusion Models with Reward Backpropagation

要約

テキストから画像への拡散モデルは、非常に大規模な教師なしまたは弱く教師付きのテキストから画像へのトレーニング データセットを利用して、画像生成の最前線に最近登場しました。
監視されていないトレーニングのため、人間が知覚する画質の最大化、画像とテキストの位置合わせ、倫理的な画像生成などの下流タスクでの動作を制御することは困難です。
最近の研究では、勾配推定量の分散が大きいことで有名なバニラ強化学習を使用して、拡散モデルを下流の報酬関数に微調整しています。
この論文では、ノイズ除去プロセスによる報酬勾配のエンドツーエンド逆伝播を使用して、拡散モデルを下流の報酬関数に合わせる方法である AlignProp を提案します。
このようなバックプロパゲーションの単純な実装では、最新のテキストから画像へのモデルの偏導関数を保存するために法外なメモリ リソースが必要になりますが、AlignProp は低ランクのアダプタ重みモジュールを微調整し、勾配チェックポイント処理を使用してメモリ使用量を有効にします。
私たちは、画像とテキストの意味論的な位置合わせ、美しさ、存在するオブジェクトの数とその組み合わせの圧縮性と制御性など、さまざまな目的に合わせて拡散モデルを微調整する際に AlignProp をテストします。
AlignProp は、他の方法よりも少ないトレーニング ステップでより高い報酬を達成しながら、概念的に単純であるため、目的の微分可能な報酬関数の拡散モデルを最適化するための簡単な選択肢となることを示します。
コードと視覚化の結果は https://align-prop.github.io/ で入手できます。

要約(オリジナル)

Text-to-image diffusion models have recently emerged at the forefront of image generation, powered by very large-scale unsupervised or weakly supervised text-to-image training datasets. Due to their unsupervised training, controlling their behavior in downstream tasks, such as maximizing human-perceived image quality, image-text alignment, or ethical image generation, is difficult. Recent works finetune diffusion models to downstream reward functions using vanilla reinforcement learning, notorious for the high variance of the gradient estimators. In this paper, we propose AlignProp, a method that aligns diffusion models to downstream reward functions using end-to-end backpropagation of the reward gradient through the denoising process. While naive implementation of such backpropagation would require prohibitive memory resources for storing the partial derivatives of modern text-to-image models, AlignProp finetunes low-rank adapter weight modules and uses gradient checkpointing, to render its memory usage viable. We test AlignProp in finetuning diffusion models to various objectives, such as image-text semantic alignment, aesthetics, compressibility and controllability of the number of objects present, as well as their combinations. We show AlignProp achieves higher rewards in fewer training steps than alternatives, while being conceptually simpler, making it a straightforward choice for optimizing diffusion models for differentiable reward functions of interest. Code and Visualization results are available at https://align-prop.github.io/.

arxiv情報

著者 Mihir Prabhudesai,Anirudh Goyal,Deepak Pathak,Katerina Fragkiadaki
発行日 2024-06-22 07:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク