要約
普及に基づいた 2D 仮想試着 (VTON) 技術は最近好調なパフォーマンスを示していますが、3D VTON の開発は大幅に遅れています。
テキストガイドによる 3D シーン編集の最近の進歩にもかかわらず、2D VTON をこれらのパイプラインに統合して鮮やかな 3D VTON を実現することは依然として困難です。
理由は 2 つあります。
まず、テキスト プロンプトでは衣服の説明に十分な詳細を提供できません。
第 2 に、同じ 3D シーンの異なる視点から生成された 2D VTON 結果には一貫性と空間的関係が欠けており、そのため、外観の不一致や幾何学的歪みが頻繁に発生します。
これらの問題を解決するために、画像プロンプトの 3D VTON メソッド (GS-VTON と呼ばれる) を導入します。これは、3D 表現として 3D ガウス スプラッティング (3DGS) を活用することで、事前トレーニングされた知識を 2D VTON モデルから 3D に転送できるようにします。
ビュー間の一貫性が向上します。
(1) 具体的には、低ランク適応 (LoRA) 微調整を利用して、事前トレーニングされた 2D VTON モデルにパーソナライズされた情報を組み込む、パーソナライズされた拡散モデルを提案します。
効果的な LoRA トレーニングを実現するために、一貫性を確保しながらマルチビュー画像の同時編集を可能にする参照駆動型の画像編集アプローチを導入します。
(2) さらに、一貫したクロスビューの外観と高品質の 3D ジオメトリを維持しながら効果的な編集を促進する、ペルソナを意識した 3DGS 編集フレームワークを提案します。
(3) さらに、包括的な定性的および定量的な 3D VTON 評価を容易にする新しい 3D VTON ベンチマーク 3D-VTONBench を確立しました。
広範な実験と既存の方法との比較分析を通じて、提案された \OM は優れた忠実性と高度な編集機能を実証し、3D VTON に対するその有効性を確認しました。
要約(オリジナル)
Diffusion-based 2D virtual try-on (VTON) techniques have recently demonstrated strong performance, while the development of 3D VTON has largely lagged behind. Despite recent advances in text-guided 3D scene editing, integrating 2D VTON into these pipelines to achieve vivid 3D VTON remains challenging. The reasons are twofold. First, text prompts cannot provide sufficient details in describing clothing. Second, 2D VTON results generated from different viewpoints of the same 3D scene lack coherence and spatial relationships, hence frequently leading to appearance inconsistencies and geometric distortions. To resolve these problems, we introduce an image-prompted 3D VTON method (dubbed GS-VTON) which, by leveraging 3D Gaussian Splatting (3DGS) as the 3D representation, enables the transfer of pre-trained knowledge from 2D VTON models to 3D while improving cross-view consistency. (1) Specifically, we propose a personalized diffusion model that utilizes low-rank adaptation (LoRA) fine-tuning to incorporate personalized information into pre-trained 2D VTON models. To achieve effective LoRA training, we introduce a reference-driven image editing approach that enables the simultaneous editing of multi-view images while ensuring consistency. (2) Furthermore, we propose a persona-aware 3DGS editing framework to facilitate effective editing while maintaining consistent cross-view appearance and high-quality 3D geometry. (3) Additionally, we have established a new 3D VTON benchmark, 3D-VTONBench, which facilitates comprehensive qualitative and quantitative 3D VTON evaluations. Through extensive experiments and comparative analyses with existing methods, the proposed \OM has demonstrated superior fidelity and advanced editing capabilities, affirming its effectiveness for 3D VTON.
arxiv情報
著者 | Yukang Cao,Masoud Hadi,Liang Pan,Ziwei Liu |
発行日 | 2024-10-07 17:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google