Pippo: High-Resolution Multi-View Humans from a Single Image

要約

Pippoを提示します。Pippoは、1つのカジュアルにクリックされた写真から人の1K解像度の密なターンアラウンドビデオを作成できる生成モデルです。
Pippoはマルチビュー拡散トランスであり、追加の入力を必要としません – たとえば、入力画像の適合パラメトリックモデルまたはカメラパラメーター。
キャプションなしで3Bのヒューマン画像を使用して、スタジオキャプチャされた人間でマルチビューのミッドトレーニングとトレーニング後のマルチビューを実施します。
トレーニング中に、スタジオデータセットをすばやく吸収するために、低解像度でいくつかの(最大48)ビューを除去し、浅いMLPを使用してターゲットカメラを粗くエンコードします。
トレーニング後に、高解像度でのビューが少なくなり、ピクセルに合ったコントロール(たとえば、空間アンカーやプラッカーレイズ)を使用して、3Dの一貫した世代を有効にします。
推論では、Pippoがトレーニング中に見られるように5倍以上のビューを同時に生成できるようにする注意バイアス技術を提案します。
最後に、マルチビュー世代の3D一貫性を評価するために改善されたメトリックを導入し、Pippoが単一の画像からマルチビューヒューマンジェネレーションの既存の作業を上回ることを示します。

要約(オリジナル)

We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs – e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

arxiv情報

著者 Yash Kant,Ethan Weber,Jin Kyu Kim,Rawal Khirodkar,Su Zhaoen,Julieta Martinez,Igor Gilitschenski,Shunsuke Saito,Timur Bagautdinov
発行日 2025-02-11 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク