要約
クリエイティブなストーリー イラストレーションには、複数のキャラクターやオブジェクトの一貫した相互作用が必要です。
しかし、従来のテキストから画像へのモデルは、複数のパーソナライズされた主題を特徴とする画像を生成する際に、大きな課題に直面しています。
たとえば、主題のレンダリングが歪められたり、テキストの説明が一貫した主題の相互作用を表現できなかったりします。
これらの課題の一部を軽減するために、Multi-Subject Personalization (MSP) を紹介します。
安定拡散を使用して MSP を実装し、他のテキストから画像へのモデルと比較してアプローチを評価し、意図した主題とインタラクションを表す高品質の画像を一貫して生成することを示します。
要約(オリジナル)
Creative story illustration requires a consistent interplay of multiple characters or objects. However, conventional text-to-image models face significant challenges while producing images featuring multiple personalized subjects. For example, they distort the subject rendering, or the text descriptions fail to render coherent subject interactions. We present Multi-Subject Personalization (MSP) to alleviate some of these challenges. We implement MSP using Stable Diffusion and assess our approach against other text-to-image models, showcasing its consistent generation of good-quality images representing intended subjects and interactions.
arxiv情報
| 著者 | Arushi Jain,Shubham Paliwal,Monika Sharma,Vikram Jamwal,Lovekesh Vig | 
| 発行日 | 2024-05-21 12:53:34+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
