FaceStudio: Put Your Face Everywhere in Seconds

要約

この研究では、個人化された文体のタッチを加えながら被写体のアイデンティティを維持しようとする画像生成における興味深いタスクである、アイデンティティを保持する画像合成について調査します。
Textual Inversion や DreamBooth などの従来の方法は、カスタム イメージの作成において進歩を遂げてきましたが、重大な欠点があります。
これには、微調整のための膨大なリソースと時間の必要性、および複数の参照画像の要件が含まれます。
これらの課題を克服するために、私たちの研究では、特に人間の画像に焦点を当てた、アイデンティティを保持した合成への新しいアプローチを導入しています。
私たちのモデルは直接フィードフォワード メカニズムを活用しており、集中的な微調整の必要性を回避し、それによって迅速かつ効率的な画像生成を促進します。
私たちのイノベーションの中心となるのは、様式化された画像、顔画像、テキストのプロンプトを組み合わせて画像生成プロセスをガイドするハイブリッド ガイダンス フレームワークです。
このユニークな組み合わせにより、私たちのモデルは芸術的なポートレートやアイデンティティをブレンドした画像など、さまざまなアプリケーションを作成できるようになります。
定性的評価と定量的評価の両方を含む私たちの実験結果は、特にその顕著な効率性と高忠実度で被験者のアイデンティティを保存する能力において、既存のベースラインモデルや以前の研究よりも私たちの方法の優位性を実証しています。

要約(オリジナル)

This study investigates identity-preserving image synthesis, an intriguing task in image generation that seeks to maintain a subject’s identity while adding a personalized, stylistic touch. Traditional methods, such as Textual Inversion and DreamBooth, have made strides in custom image creation, but they come with significant drawbacks. These include the need for extensive resources and time for fine-tuning, as well as the requirement for multiple reference images. To overcome these challenges, our research introduces a novel approach to identity-preserving synthesis, with a particular focus on human images. Our model leverages a direct feed-forward mechanism, circumventing the need for intensive fine-tuning, thereby facilitating quick and efficient image generation. Central to our innovation is a hybrid guidance framework, which combines stylized images, facial images, and textual prompts to guide the image generation process. This unique combination enables our model to produce a variety of applications, such as artistic portraits and identity-blended images. Our experimental results, including both qualitative and quantitative evaluations, demonstrate the superiority of our method over existing baseline models and previous works, particularly in its remarkable efficiency and ability to preserve the subject’s identity with high fidelity.

arxiv情報

著者 Yuxuan Yan,Chi Zhang,Rui Wang,Pei Cheng,Gang Yu,Bin Fu
発行日 2023-12-05 11:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク