要約
拡散モデルを介したモデリング画像プリエアの大幅な進歩にもかかわらず、オブジェクトは単一の画像でのみ指定されているため、3Dにアウェアの画像編集が依然として困難です。
この課題に取り組むために、3D-fixupを提案します。3D-fixupは、学習した3D Priorsによってガイドされた2D画像を編集するための新しいフレームワークです。
このフレームワークは、オブジェクト変換や3D回転などの困難な編集状況をサポートしています。
これを達成するために、拡散モデルの生成力を活用するトレーニングベースのアプローチを活用します。
ビデオデータは自然に現実世界の物理的ダイナミクスをエンコードするため、トレーニングデータペア、つまりソースとターゲットフレームを生成するためのビデオデータに目を向けます。
ソースフレームとターゲットフレーム間の変換を推測するために単一の訓練されたモデルのみに依存するのではなく、2D情報を3Dスペースに明示的に投影することにより、この挑戦的なタスクを橋渡しする画像間モデルから3Dガイダンスを組み込みます。
データ生成パイプラインを設計して、トレーニングを通じて高品質の3Dガイダンスを確保しています。
結果は、これらの3Dプライアーを統合することにより、3D-fixupが複雑なアイデンティティコヒーレント3D認識編集を効果的にサポートし、高品質の結果を達成し、現実的な画像操作における拡散モデルの適用を進めることを示しています。
コードはhttps://3dfixup.github.io/で提供されます
要約(オリジナル)
Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/
arxiv情報
著者 | Yen-Chi Cheng,Krishna Kumar Singh,Jae Shin Yoon,Alex Schwing,Liangyan Gui,Matheus Gadelha,Paul Guerrero,Nanxuan Zhao |
発行日 | 2025-05-15 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google