要約
テキストから画像への拡散モデルの最近の進歩により、単一の画像から 3D を生成できるようになりました。
ただし、現在の画像から 3D への変換方法では、テクスチャがぼやけたり、参照画像から逸脱したりするなど、新しいビューに対して次善の結果が得られることが多く、実際の用途が制限されています。
このペーパーでは、高忠実度でマルチビューの一貫した 3D 生成のために設計された方式である HiFi-123 を紹介します。
私たちの貢献は 2 つあります。まず、合成ビューと参照ビューの間の品質ギャップを大幅に削減する、参照ガイドに基づいた新しいビュー拡張技術を提案します。
第 2 に、新しいビューの強化を利用して、新しい参照ガイドに基づく状態蒸留損失を提示します。
私たちの方法を最適化ベースの画像から 3D パイプラインに組み込むと、3D 生成の品質が大幅に向上し、最先端のパフォーマンスが実現します。
包括的な評価により、既存の方法に対する当社のアプローチの有効性が定性的および定量的に実証されます。
要約(オリジナル)
Recent advances in text-to-image diffusion models have enabled 3D generation from a single image. However, current image-to-3D methods often produce suboptimal results for novel views, with blurred textures and deviations from the reference image, limiting their practical applications. In this paper, we introduce HiFi-123, a method designed for high-fidelity and multi-view consistent 3D generation. Our contributions are twofold: First, we propose a reference-guided novel view enhancement technique that substantially reduces the quality gap between synthesized and reference views. Second, capitalizing on the novel view enhancement, we present a novel reference-guided state distillation loss. When incorporated into the optimization-based image-to-3D pipeline, our method significantly improves 3D generation quality, achieving state-of-the-art performance. Comprehensive evaluations demonstrate the effectiveness of our approach over existing methods, both qualitatively and quantitatively.
arxiv情報
著者 | Wangbo Yu,Li Yuan,Yan-Pei Cao,Xiangjun Gao,Xiaoyu Li,Long Quan,Ying Shan,Yonghong Tian |
発行日 | 2023-10-10 16:14:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google