InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image

要約

3Dを意識したポートレート編集におけるNeural Radiance Field (NeRF)の成功に伴い、様々な研究が品質と3Dの一貫性の両方に関して有望な結果を達成している。しかし、これらの手法は、編集指示として自然言語を扱う際に、プロンプトごとの最適化に大きく依存している。ラベル付けされた人間の顔の3Dデータセットや効果的なアーキテクチャがないため、オープンワールドの肖像画をエンドツーエンドで人間が指示する3D認識編集の領域は未解明のままである。この問題を解決するために、我々はInstructPix2NeRFと呼ばれるエンドツーエンドの拡散ベースのフレームワークを提案する。InstructPix2NeRFの核となるのは、条件付き潜在的3D拡散プロセスであり、トリプレットデータを介してペア画像の差分と指示の相関を学習することにより、2D編集を3D空間に持ち上げる。提案するトークンの位置ランダム化戦略の助けにより、肖像の同一性を十分に保持したまま、1回のパスで多義的な編集を達成することもできる。さらに、抽出されたアイデンティティ信号を拡散処理に直接変調するアイデンティティ一貫性モジュールを提案し、多視点3Dアイデンティティ一貫性を向上させる。広範な実験により、本手法の有効性を検証し、強力なベースラインに対する優位性を定量的・定性的に示す。ソースコードと事前学習済みモデルは、我々のプロジェクトページにあります:\https://mybabyyh.github.io/InstructPix2NeRF}。

要約(オリジナル)

With the success of Neural Radiance Field (NeRF) in 3D-aware portrait editing, a variety of works have achieved promising results regarding both quality and 3D consistency. However, these methods heavily rely on per-prompt optimization when handling natural language as editing instructions. Due to the lack of labeled human face 3D datasets and effective architectures, the area of human-instructed 3D-aware editing for open-world portraits in an end-to-end manner remains under-explored. To solve this problem, we propose an end-to-end diffusion-based framework termed InstructPix2NeRF, which enables instructed 3D-aware portrait editing from a single open-world image with human instructions. At its core lies a conditional latent 3D diffusion process that lifts 2D editing to 3D space by learning the correlation between the paired images’ difference and the instructions via triplet data. With the help of our proposed token position randomization strategy, we could even achieve multi-semantic editing through one single pass with the portrait identity well-preserved. Besides, we further propose an identity consistency module that directly modulates the extracted identity signals into our diffusion process, which increases the multi-view 3D identity consistency. Extensive experiments verify the effectiveness of our method and show its superiority against strong baselines quantitatively and qualitatively. Source code and pre-trained models can be found on our project page: \url{https://mybabyyh.github.io/InstructPix2NeRF}.

arxiv情報

著者 Jianhui Li,Shilong Liu,Zidong Liu,Yikai Wang,Kaiwen Zheng,Jinghui Xu,Jianmin Li,Jun Zhu
発行日 2024-02-02 11:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク