Diffusion Time-step Curriculum for One Image to 3D Generation

要約

スコア蒸留サンプリング~(SDS) は、\textbf{single} イメージから 3D オブジェクトを再構成する際の目に見えないビューの欠如を克服するために広く採用されています。
事前トレーニングされた 2D 拡散モデルを教師として活用し、生徒の 3D モデルの再構築をガイドします。
SDS ベースの手法は目覚ましい成功を収めていますが、幾何学的アーティファクトやテクスチャの飽和が発生することがよくあります。
核心は、最適化中の拡散タイムステップの見落とされた無差別な処理であることがわかりました。これは、生徒と教師の知識の蒸留がすべてのタイムステップで等しいものとして不当に扱われ、その結果、粗粒モデリングと細粒モデリングが混乱してしまいます。
したがって、教師と生徒の両方のモデルが粗い方法から細かい方法でタイムステップ カリキュラムと連携する、拡散タイムステップ カリキュラムの 1 つの画像から 3D へのパイプライン (DTC123) を提案します。
NeRF4、RealFusion15、GSO、および Level50 ベンチマークに関する広範な実験により、DTC123 がマルチビューで一貫した高品質で多様な 3D アセットを生成できることが実証されました。
コードとその他の生成デモは https://github.com/yxymessi/DTC123 でリリースされます。

要約(オリジナル)

Score distillation sampling~(SDS) has been widely adopted to overcome the absence of unseen views in reconstructing 3D objects from a \textbf{single} image. It leverages pre-trained 2D diffusion models as teacher to guide the reconstruction of student 3D models. Despite their remarkable success, SDS-based methods often encounter geometric artifacts and texture saturation. We find out the crux is the overlooked indiscriminate treatment of diffusion time-steps during optimization: it unreasonably treats the student-teacher knowledge distillation to be equal at all time-steps and thus entangles coarse-grained and fine-grained modeling. Therefore, we propose the Diffusion Time-step Curriculum one-image-to-3D pipeline (DTC123), which involves both the teacher and student models collaborating with the time-step curriculum in a coarse-to-fine manner. Extensive experiments on NeRF4, RealFusion15, GSO and Level50 benchmark demonstrate that DTC123 can produce multi-view consistent, high-quality, and diverse 3D assets. Codes and more generation demos will be released in https://github.com/yxymessi/DTC123.

arxiv情報

著者 Xuanyu Yi,Zike Wu,Qingshan Xu,Pan Zhou,Joo-Hwee Lim,Hanwang Zhang
発行日 2024-04-11 14:28:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク