要約
Text-to-3D 生成は、テキスト プロンプトから鮮やかな 3D オブジェクトを合成することを目的としており、コンピューター ビジョン コミュニティから大きな注目を集めています。
いくつかの既存の研究はこのタスクで目覚ましい結果を達成していますが、主に時間のかかる最適化パラダイムに依存しています。
具体的には、これらのメソッドはテキスト プロンプトごとにニューラル フィールドを最初から最適化し、1 つのオブジェクトを生成するのに約 1 時間以上かかります。
この多大な繰り返しのトレーニングコストが、実際の展開の妨げとなります。
この論文では、Instant3D と呼ばれる、テキストから 3D への高速生成のための新しいフレームワークを提案します。
トレーニングが完了すると、Instant3D は、フィードフォワード ネットワークを 1 回実行するだけで、目に見えないテキスト プロンプトの 3D オブジェクトを 1 秒未満で作成できるようになります。
私たちは、テキスト プロンプトから 3D トライプレーンを直接構築する新しいネットワークを考案することで、この驚くべき速度を実現しました。
私たちの Instant3D の中核となる革新は、テキスト条件をネットワークに効果的に注入する戦略の探求にあります。
さらに、元のシグモイド関数を置き換える、シンプルで効果的な活性化関数であるスケーリング シグモイドを提案します。これにより、トレーニングの収束が 10 倍以上高速化されます。
最後に、3D 生成におけるヤヌス (マルチヘッド) 問題に対処するために、トレーニング中にヤヌス問題の重大度に応じて概念否定スケールを動的に調整し、マルチヘッド効果を効果的に軽減できる適応型 Perp-Neg アルゴリズムを提案します。
。
さまざまなベンチマーク データセットに対する広範な実験により、提案されたアルゴリズムが質的および定量的に最先端の手法に対して有利に機能し、大幅に優れた効率を達成できることが実証されました。
プロジェクト ページは https://ming1993li.github.io/Instant3DProj にあります。
要約(オリジナル)
Text-to-3D generation, which aims to synthesize vivid 3D objects from text prompts, has attracted much attention from the computer vision community. While several existing works have achieved impressive results for this task, they mainly rely on a time-consuming optimization paradigm. Specifically, these methods optimize a neural field from scratch for each text prompt, taking approximately one hour or more to generate one object. This heavy and repetitive training cost impedes their practical deployment. In this paper, we propose a novel framework for fast text-to-3D generation, dubbed Instant3D. Once trained, Instant3D is able to create a 3D object for an unseen text prompt in less than one second with a single run of a feedforward network. We achieve this remarkable speed by devising a new network that directly constructs a 3D triplane from a text prompt. The core innovation of our Instant3D lies in our exploration of strategies to effectively inject text conditions into the network. Furthermore, we propose a simple yet effective activation function, the scaled-sigmoid, to replace the original sigmoid function, which speeds up the training convergence by more than ten times. Finally, to address the Janus (multi-head) problem in 3D generation, we propose an adaptive Perp-Neg algorithm that can dynamically adjust its concept negation scales according to the severity of the Janus problem during training, effectively reducing the multi-head effect. Extensive experiments on a wide variety of benchmark datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods both qualitatively and quantitatively, while achieving significantly better efficiency. The project page is at https://ming1993li.github.io/Instant3DProj.
arxiv情報
著者 | Ming Li,Pan Zhou,Jia-Wei Liu,Jussi Keppo,Min Lin,Shuicheng Yan,Xiangyu Xu |
発行日 | 2023-11-14 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google