要約
適切に設計されたプロンプトは、テキストから画像へのモデルをガイドして素晴らしい画像を生成することができます。
ただし、パフォーマンスの高いプロンプトはモデル固有であることが多く、ユーザー入力と一致していません。
骨の折れる人間工学の代わりに、元のユーザー入力をモデルが優先するプロンプトに自動的に適応させる一般的なフレームワークであるプロンプト適応を提案します。
具体的には、まず、手動で設計されたプロンプトの小さなコレクションに対して、事前トレーニングされた言語モデルを使用して教師あり微調整を実行します。
次に、強化学習を使用して、より良いプロンプトを探索します。
元のユーザーの意図を維持しながら、より美しく美しい画像を生成するポリシーを奨励する報酬関数を定義します。
安定拡散に関する実験結果は、自動メトリクスと人間の好みの評価の両方の点で、私たちの方法が手動のプロンプトエンジニアリングよりも優れていることを示しています。
さらに、強化学習により、特にドメイン外のプロンプトでのパフォーマンスがさらに向上します。
事前トレーニングされたチェックポイントは、https://aka.ms/promptist で入手できます。
デモは https://aka.ms/promptist-demo でご覧いただけます。
要約(オリジナル)
Well-designed prompts can guide text-to-image models to generate amazing images. However, the performant prompts are often model-specific and misaligned with user input. Instead of laborious human engineering, we propose prompt adaptation, a general framework that automatically adapts original user input to model-preferred prompts. Specifically, we first perform supervised fine-tuning with a pretrained language model on a small collection of manually engineered prompts. Then we use reinforcement learning to explore better prompts. We define a reward function that encourages the policy to generate more aesthetically pleasing images while preserving the original user intentions. Experimental results on Stable Diffusion show that our method outperforms manual prompt engineering in terms of both automatic metrics and human preference ratings. Moreover, reinforcement learning further boosts performance, especially on out-of-domain prompts. The pretrained checkpoints are available at https://aka.ms/promptist. The demo can be found at https://aka.ms/promptist-demo.
arxiv情報
| 著者 | Yaru Hao,Zewen Chi,Li Dong,Furu Wei |
| 発行日 | 2023-12-29 10:15:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google