Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning

要約

パーソナライズされたテキストから画像へのモデルを使用すると、ユーザーはオブジェクト (参照画像のセットで指定) に対してさまざまなスタイルの画像 (文で指定) を生成できます。
拡散ベースの生成モデルを使用すると顕著な結果が達成されていますが、オブジェクトの視覚的な構造や詳細は拡散プロセス中に予期せず変更されることがよくあります。
主な理由の 1 つは、これらの拡散ベースのアプローチは通常、トレーニング中に単純な再構成目標を採用するため、生成された画像と参照画像の間で適切な構造的一貫性を強制することがほとんどできないことです。
この目的を達成するために、この論文では、パーソナライズされたテキストから画像への生成のための決定論的ポリシー勾配法を利用することにより、新しい強化学習フレームワークを設計します。このフレームワークを使用すると、微分または非微分などのさまざまな目的を簡単に組み込んで、状況を監視できます。
生成された画像の品質を向上させるための拡散モデル。
パーソナライズされたテキストから画像への生成ベンチマーク データセットの実験結果は、私たちが提案するアプローチが、テキストの配置を維持しながら視覚的な忠実度において既存の最先端の方法を大幅に上回るパフォーマンスを示していることを示しています。
コードは \url{https://github.com/wfanyue/DPG-T2I-Personalization} から入手できます。

要約(オリジナル)

Personalized text-to-image models allow users to generate varied styles of images (specified with a sentence) for an object (specified with a set of reference images). While remarkable results have been achieved using diffusion-based generation models, the visual structure and details of the object are often unexpectedly changed during the diffusion process. One major reason is that these diffusion-based approaches typically adopt a simple reconstruction objective during training, which can hardly enforce appropriate structural consistency between the generated and the reference images. To this end, in this paper, we design a novel reinforcement learning framework by utilizing the deterministic policy gradient method for personalized text-to-image generation, with which various objectives, differential or even non-differential, can be easily incorporated to supervise the diffusion models to improve the quality of the generated images. Experimental results on personalized text-to-image generation benchmark datasets demonstrate that our proposed approach outperforms existing state-of-the-art methods by a large margin on visual fidelity while maintaining text-alignment. Our code is available at: \url{https://github.com/wfanyue/DPG-T2I-Personalization}.

arxiv情報

著者 Fanyue Wei,Wei Zeng,Zhenyang Li,Dawei Yin,Lixin Duan,Wen Li
発行日 2024-07-18 15:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク