要約
漫画のアバターは、ソーシャルメディア、オンラインチューター、ゲームなど、さまざまなアプリケーションで広く使用されています。
しかし、既存の漫画のアバターデータセットと生成方法は、細粒の表情を持つ非常に表現力豊かなアバターを提示するのに苦労しており、多くの場合、実際のアイデンティティからインスピレーションを受け、プライバシーの懸念を引き起こします。
これらの課題に対処するために、細粒の表情を持つ高品質の漫画アバターを生成するための新しいフレームワークであるGeneavaを提案します。
私たちのアプローチは、非常に詳細で表現力のある表情を統合するための最先端のテキストからイメージまでの拡散モデルを微調整します。
次に、アイデンティティと表現の両方を保存しながら、これらの現実的な顔を漫画アバターに変換するスタイリライゼーションモデルを組み込みます。
このフレームワークを活用すると、最初の表現力豊かな漫画アバターデータセットであるGeneAva 1.0を紹介します。これは、135のきめの細かい表情をキャプチャするように特別に設計されており、性別、人種グループ、年齢範囲にわたってバランスの取れた分布を備えた13,230の表現力豊かな漫画アバターを特徴としています。
微調整されたモデルは、最先端のテキストからイメージまでの拡散モデルSDXLよりも表現力のある顔を生成することを実証します。
また、私たちのフレームワークによって生成された漫画のアバターには、微調整データの記憶されたアイデンティティが含まれていないことも確認しています。
提案されたフレームワークとデータセットは、漫画アバター世代の将来の研究のための多様で表現力のあるベンチマークを提供します。
要約(オリジナル)
Cartoon avatars have been widely used in various applications, including social media, online tutoring, and gaming. However, existing cartoon avatar datasets and generation methods struggle to present highly expressive avatars with fine-grained facial expressions and are often inspired from real-world identities, raising privacy concerns. To address these challenges, we propose a novel framework, GenEAva, for generating high-quality cartoon avatars with fine-grained facial expressions. Our approach fine-tunes a state-of-the-art text-to-image diffusion model to synthesize highly detailed and expressive facial expressions. We then incorporate a stylization model that transforms these realistic faces into cartoon avatars while preserving both identity and expression. Leveraging this framework, we introduce the first expressive cartoon avatar dataset, GenEAva 1.0, specifically designed to capture 135 fine-grained facial expressions, featuring 13,230 expressive cartoon avatars with a balanced distribution across genders, racial groups, and age ranges. We demonstrate that our fine-tuned model generates more expressive faces than the state-of-the-art text-to-image diffusion model SDXL. We also verify that the cartoon avatars generated by our framework do not include memorized identities from fine-tuning data. The proposed framework and dataset provide a diverse and expressive benchmark for future research in cartoon avatar generation.
arxiv情報
著者 | Hao Yu,Rupayan Mallick,Margrit Betke,Sarah Adel Bargal |
発行日 | 2025-04-10 17:54:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google