Turbo3D: Ultra-fast Text-to-3D Generation

要約

Turbo3D は、1 秒未満で高品質のガウス スプラッティング アセットを生成できる超高速テキスト to 3D システムです。
Turbo3D は、高速 4 ステップ、4 ビュー拡散ジェネレータと効率的なフィードフォワード ガウス再構成器を採用しており、どちらも潜在空間で動作します。
4 ステップ、4 ビュー ジェネレーターは、新しいデュアル教師アプローチを通じて蒸留された生徒モデルであり、生徒がマルチビュー教師からビューの一貫性を学び、シングルビュー教師からフォトリアリズムを学ぶことを奨励します。
ガウス再構成器の入力をピクセル空間から潜在空間にシフトすることで、余分な画像デコード時間を排除し、変換シーケンスの長さを半分にして効率を最大化します。
私たちの方法は、以前のベースラインと比較して、実行時間のほんの一部で動作しながら、優れた 3D 生成結果を示しています。

要約(オリジナル)

We present Turbo3D, an ultra-fast text-to-3D system capable of generating high-quality Gaussian splatting assets in under one second. Turbo3D employs a rapid 4-step, 4-view diffusion generator and an efficient feed-forward Gaussian reconstructor, both operating in latent space. The 4-step, 4-view generator is a student model distilled through a novel Dual-Teacher approach, which encourages the student to learn view consistency from a multi-view teacher and photo-realism from a single-view teacher. By shifting the Gaussian reconstructor’s inputs from pixel space to latent space, we eliminate the extra image decoding time and halve the transformer sequence length for maximum efficiency. Our method demonstrates superior 3D generation results compared to previous baselines, while operating in a fraction of their runtime.

arxiv情報

著者 Hanzhe Hu,Tianwei Yin,Fujun Luan,Yiwei Hu,Hao Tan,Zexiang Xu,Sai Bi,Shubham Tulsiani,Kai Zhang
発行日 2024-12-05 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク