Enhancing 3D Fidelity of Text-to-3D using Cross-View Correspondences

要約

3D 最適化の事前予測としてマルチビュー拡散モデルを活用することで、ゼロショット テキストから 3D モデルへのヤヌスの顔問題やコンテンツ ドリフト問題などの 3D 一貫性の問題が軽減されました。
ただし、出力の 3D 幾何学的忠実度は未解決の問題のままです。
レンダリングされた 2D ビューは現実的ですが、基礎となるジオメトリには不当な凹面などのエラーが含まれる場合があります。
この研究では、普及 U-Net から得られる注釈不要のクロスビュー対応を活用して、NeRF 最適化プロセスの前に追加の 3D を提供する効果的な方法である CorrespondentDream を提案します。
私たちは、これらの対応関係が人間の知覚と強く一致していることを発見し、それを損失設計に採用することで、常識とより一貫性のあるジオメトリ、たとえば、より滑らかな物体表面を備えた NeRF モデルを生成することができ、より高い 3D 忠実度が得られます。
当社は、さまざまな定性的な比較結果と確実なユーザー調査を通じて、アプローチの有効性を実証しています。

要約(オリジナル)

Leveraging multi-view diffusion models as priors for 3D optimization have alleviated the problem of 3D consistency, e.g., the Janus face problem or the content drift problem, in zero-shot text-to-3D models. However, the 3D geometric fidelity of the output remains an unresolved issue; albeit the rendered 2D views are realistic, the underlying geometry may contain errors such as unreasonable concavities. In this work, we propose CorrespondentDream, an effective method to leverage annotation-free, cross-view correspondences yielded from the diffusion U-Net to provide additional 3D prior to the NeRF optimization process. We find that these correspondences are strongly consistent with human perception, and by adopting it in our loss design, we are able to produce NeRF models with geometries that are more coherent with common sense, e.g., more smoothed object surface, yielding higher 3D fidelity. We demonstrate the efficacy of our approach through various comparative qualitative results and a solid user study.

arxiv情報

著者 Seungwook Kim,Kejie Li,Xueqing Deng,Yichun Shi,Minsu Cho,Peng Wang
発行日 2024-04-16 14:28:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク