The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

要約

テキストから画像への生成モデルの最近の進歩により、視覚的な創造性の膨大な可能性が解き放たれました。
ただし、これらのモデルは、ストーリーの視覚化、ゲーム開発アセット設計、広告などの多くの実世界のアプリケーションにとって重要な側面である、一貫したキャラクターの生成に苦労しています。
現在の方法は通常、ターゲット キャラクターの複数の既存の画像に依存するか、労働集約的な手動プロセスを伴います。
この研究では、唯一の入力がテキスト プロンプトである、一貫した文字生成のための完全に自動化されたソリューションを提案します。
各段階で、同様のアイデンティティを共有する一貫した画像のセットを特定し、このセットからより一貫したアイデンティティを抽出する反復手順を導入します。
私たちの定量的分析は、私たちの方法がベースライン方法と比較して、迅速な位置合わせと同一性の一貫性の間でより良いバランスをとっていることを示しており、これらの発見はユーザー調査によって強化されています。
結論として、私たちのアプローチのいくつかの実際的な応用例を紹介します。
プロジェクトページは https://omriavrahami.com/the-chosen-one からご覧いただけます

要約(オリジナル)

Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one

arxiv情報

著者 Omri Avrahami,Amir Hertz,Yael Vinker,Moab Arar,Shlomi Fruchter,Ohad Fried,Daniel Cohen-Or,Dani Lischinski
発行日 2023-11-16 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク