HiFi-123: Towards High-fidelity One Image to 3D Content Generation

要約

最近の拡散モデルの進歩により、1 枚の画像から 3D を生成できるようになりました。
ただし、現在の方法では、テクスチャがぼやけたり、参照画像から逸脱したりするなど、新しいビューに対して最適ではない結果が生成されることが多く、実際の用途が制限されています。
このペーパーでは、高忠実度でマルチビューの一貫した 3D 生成のために設計された方式である HiFi-123 を紹介します。
私たちの貢献は 2 つあります。まず、拡散ベースのゼロショット ノベル ビュー合成法の忠実度を大幅に向上させる、Reference-Guided Novel View Enhancement (RGNV) 技術を提案します。
次に、RGNV を利用して、新しい参照誘導状態蒸留 (RGSD) 損失を提示します。
私たちの方法を最適化ベースの画像から 3D パイプラインに組み込むと、3D 生成の品質が大幅に向上し、最先端のパフォーマンスが実現します。
包括的な評価により、既存の方法に対する当社のアプローチの有効性が定性的および定量的に実証されます。
ビデオ結果はプロジェクト ページでご覧いただけます。

要約(オリジナル)

Recent advances in diffusion models have enabled 3D generation from a single image. However, current methods often produce suboptimal results for novel views, with blurred textures and deviations from the reference image, limiting their practical applications. In this paper, we introduce HiFi-123, a method designed for high-fidelity and multi-view consistent 3D generation. Our contributions are twofold: First, we propose a Reference-Guided Novel View Enhancement (RGNV) technique that significantly improves the fidelity of diffusion-based zero-shot novel view synthesis methods. Second, capitalizing on the RGNV, we present a novel Reference-Guided State Distillation (RGSD) loss. When incorporated into the optimization-based image-to-3D pipeline, our method significantly improves 3D generation quality, achieving state-of-the-art performance. Comprehensive evaluations demonstrate the effectiveness of our approach over existing methods, both qualitatively and quantitatively. Video results are available on the project page.

arxiv情報

著者 Wangbo Yu,Li Yuan,Yan-Pei Cao,Xiangjun Gao,Xiaoyu Li,Wenbo Hu,Long Quan,Ying Shan,Yonghong Tian
発行日 2024-03-25 11:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク