DiffBody: Diffusion-based Pose and Shape Editing of Human Images

要約

人物画像におけるポーズや体型の編集がますます注目を集めています。
ただし、現在の方法では、データセットのバイアスに苦戦することが多く、ユーザーが大規模な編集を行うとリアリズムと人物のアイデンティティが低下します。
私たちは、アイデンティティを保持しながら大規模な編集を可能にするワンショットのアプローチを提案します。
大規模な編集を可能にするために、3D ボディ モデルを適合させ、入力画像を 3D モデルに投影し、ボディのポーズと形状を変更します。
この初期のテクスチャ付きボディ モデルにはオクルージョンや不正確なボディ形状によるアーティファクトがあるため、レンダリングされたイメージには拡散ベースのリファインが行われます。この調整では、強いノイズがボディの構造とアイデンティティを破壊しますが、不十分なノイズは役に立ちません。
したがって、最初に体全体に適用され、次に顔に適用される、弱いノイズによる反復的な改良を提案します。
自己教師あり学習を通じてテキストの埋め込みを微調整することで、リアリズムをさらに強化します。
私たちの定量的および定性的評価は、私たちの方法がさまざまなデータセットにわたって他の既存の方法よりも優れていることを示しています。

要約(オリジナル)

Pose and body shape editing in a human image has received increasing attention. However, current methods often struggle with dataset biases and deteriorate realism and the person’s identity when users make large edits. We propose a one-shot approach that enables large edits with identity preservation. To enable large edits, we fit a 3D body model, project the input image onto the 3D model, and change the body’s pose and shape. Because this initial textured body model has artifacts due to occlusion and the inaccurate body shape, the rendered image undergoes a diffusion-based refinement, in which strong noise destroys body structure and identity whereas insufficient noise does not help. We thus propose an iterative refinement with weak noise, applied first for the whole body and then for the face. We further enhance the realism by fine-tuning text embeddings via self-supervised learning. Our quantitative and qualitative evaluations demonstrate that our method outperforms other existing methods across various datasets.

arxiv情報

著者 Yuta Okuyama,Yuki Endo,Yoshihiro Kanamori
発行日 2024-01-08 04:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク