PuzzleAvatar: Assembling 3D Avatars from Personal Albums


パーソナライズされた 3D アバターの生成は AR/VR にとって重要です。
しかし、有名人や架空のキャラクターのアバターを生成する最近のテキストから 3D への手法は、一般人にとっては困難を伴います。
ユーザーが自分の個人的な「OOTD」(Outfit Of The Day)写真コレクションをアップロードするだけで、代わりに忠実なアバターを入手できるとしたらどうなるでしょうか?
課題は、このようなカジュアルな写真コレクションには、多様なポーズ、挑戦的な視点、トリミングされたビュー、およびオクルージョン (一貫した服装、アクセサリー、ヘアスタイルが含まれているにもかかわらず) が含まれていることです。
私たちは、身体とカメラのポーズの困難な推定を回避しながら、個人の OOTD アルバムから忠実な 3D アバター (正規のポーズで) を生成する新しいモデルである PuzzleAvatar を開発することで、この新しい「Album2Human」タスクに取り組みます。
この目的を達成するために、私たちはそのような写真の基礎的な視覚言語モデル (VLM) を微調整し、人の外観、アイデンティティ、衣服、髪型、アクセサリーを (個別の) 学習済みトークンにエンコードし、これらの手がかりを VLM に埋め込みます。
実際、私たちは学習したトークンを「パズルのピース」として利用し、そこから忠実でパーソナライズされた 3D アバターを組み立てます。
この新しいタスクのベンチマークとして、合計 1,000 近くの OOTD 構成で 41 人の被験者を含む PuzzleIOI と呼ばれる新しいデータセットを、ペアのグラウンドトゥルース 3D ボディを含む挑戦的な部分写真で収集します。
評価の結果、PuzzleAvatar は TeCH や MVDreamBooth を上回る高い再構成精度を備えているだけでなく、アルバム写真に対する独自の拡張性と強力な堅牢性を備えていることがわかりました。


Generating personalized 3D avatars is crucial for AR/VR. However, recent text-to-3D methods that generate avatars for celebrities or fictional characters, struggle with everyday people. Methods for faithful reconstruction typically require full-body images in controlled settings. What if a user could just upload their personal ‘OOTD’ (Outfit Of The Day) photo collection and get a faithful avatar in return? The challenge is that such casual photo collections contain diverse poses, challenging viewpoints, cropped views, and occlusion (albeit with a consistent outfit, accessories and hairstyle). We address this novel ‘Album2Human’ task by developing PuzzleAvatar, a novel model that generates a faithful 3D avatar (in a canonical pose) from a personal OOTD album, while bypassing the challenging estimation of body and camera pose. To this end, we fine-tune a foundational vision-language model (VLM) on such photos, encoding the appearance, identity, garments, hairstyles, and accessories of a person into (separate) learned tokens and instilling these cues into the VLM. In effect, we exploit the learned tokens as ‘puzzle pieces’ from which we assemble a faithful, personalized 3D avatar. Importantly, we can customize avatars by simply inter-changing tokens. As a benchmark for this new task, we collect a new dataset, called PuzzleIOI, with 41 subjects in a total of nearly 1K OOTD configurations, in challenging partial photos with paired ground-truth 3D bodies. Evaluation shows that PuzzleAvatar not only has high reconstruction accuracy, outperforming TeCH and MVDreamBooth, but also a unique scalability to album photos, and strong robustness. Our model and data will be public.


著者 Yuliang Xiu,Yufei Ye,Zhen Liu,Dimitrios Tzionas,Michael J. Black
発行日 2024-05-23 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク