HiFi-123: Towards High-fidelity One Image to 3D Content Generation

要約

テキストから画像への拡散モデルの最近の進歩により、単一の画像から 3D を生成できるようになりました。
ただし、現在の画像から 3D への変換方法では、テクスチャがぼやけたり、参照画像から逸脱したりするなど、新しいビューに対して次善の結果が得られることが多く、実際の用途が制限されています。
このペーパーでは、高忠実度でマルチビューの一貫した 3D 生成のために設計された方式である HiFi-123 を紹介します。
私たちの貢献は 2 つあります。まず、合成ビューと参照ビューの間の品質ギャップを大幅に削減する、参照ガイドに基づいた新しいビュー拡張技術を提案します。
第 2 に、新しいビューの強化を利用して、新しい参照ガイドに基づく状態蒸留損失を提示します。
私たちの方法を最適化ベースの画像から 3D パイプラインに組み込むと、3D 生成の品質が大幅に向上し、最先端のパフォーマンスが実現します。
包括的な評価により、既存の方法に対する当社のアプローチの有効性が定性的および定量的に実証されます。

要約(オリジナル)

Recent advances in text-to-image diffusion models have enabled 3D generation from a single image. However, current image-to-3D methods often produce suboptimal results for novel views, with blurred textures and deviations from the reference image, limiting their practical applications. In this paper, we introduce HiFi-123, a method designed for high-fidelity and multi-view consistent 3D generation. Our contributions are twofold: First, we propose a reference-guided novel view enhancement technique that substantially reduces the quality gap between synthesized and reference views. Second, capitalizing on the novel view enhancement, we present a novel reference-guided state distillation loss. When incorporated into the optimization-based image-to-3D pipeline, our method significantly improves 3D generation quality, achieving state-of-the-art performance. Comprehensive evaluations demonstrate the effectiveness of our approach over existing methods, both qualitatively and quantitatively.

arxiv情報

著者 Wangbo Yu,Li Yuan,Yan-Pei Cao,Xiangjun Gao,Xiaoyu Li,Long Quan,Ying Shan,Yonghong Tian
発行日 2023-10-10 16:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク