要約
最近のテキストから画像への生成モデルの進歩は、視覚的創造性の大きな可能性を解き放ちました。しかし、これらのモデルは、ストーリーの視覚化、ゲーム開発のアセットデザイン、広告など、多くの実世界のアプリケーションにとって重要な要素である、一貫性のある文字の生成に苦戦しています。現在の手法は、一般的に、ターゲットとなるキャラクタの複数の既存画像に依存するか、手間のかかる手動プロセスを伴う。本研究では、テキストプロンプトを唯一の入力とする、一貫性のあるキャラクター生成のための完全自動化ソリューションを提案する。各段階において、同様のアイデンティティを共有する画像の首尾一貫した集合を識別し、この集合からより一貫性のあるアイデンティティを抽出する反復手順を導入する。我々の定量的分析は、ベースライン手法と比較して、我々の手法がプロンプトの整合性とアイデンティティの一貫性の間でより良いバランスを取っていることを実証し、これらの知見はユーザー調査によって補強される。最後に、本アプローチの実用的な応用例をいくつか紹介する。プロジェクトページは https://omriavrahami.com/the-chosen-one
要約(オリジナル)
Recent advances in text-to-image generation models have unlocked vast potential for visual creativity. However, these models struggle with generation of consistent characters, a crucial aspect for numerous real-world applications such as story visualization, game development asset design, advertising, and more. Current methods typically rely on multiple pre-existing images of the target character or involve labor-intensive manual processes. In this work, we propose a fully automated solution for consistent character generation, with the sole input being a text prompt. We introduce an iterative procedure that, at each stage, identifies a coherent set of images sharing a similar identity and extracts a more consistent identity from this set. Our quantitative analysis demonstrates that our method strikes a better balance between prompt alignment and identity consistency compared to the baseline methods, and these findings are reinforced by a user study. To conclude, we showcase several practical applications of our approach. Project page is available at https://omriavrahami.com/the-chosen-one
arxiv情報
著者 | Omri Avrahami,Amir Hertz,Yael Vinker,Moab Arar,Shlomi Fruchter,Ohad Fried,Daniel Cohen-Or,Dani Lischinski |
発行日 | 2024-05-06 15:38:26+00:00 |
arxivサイト | arxiv_id(pdf) |