HyperFields: Towards Zero-Shot Generation of NeRFs from Text

要約

HyperFields を紹介します。これは、単一のフォワード パスと (オプションで) 微調整を行うことで、テキスト条件付きニューラル ラディアンス フィールド (NeRF) を生成する方法です。
私たちのアプローチの鍵となるのは次のとおりです。(i) テキスト トークンの埋め込みから NeRF の空間へのスムーズなマッピングを学習する動的ハイパーネットワーク。
(ii) NeRF 抽出トレーニング。個々の NeRF でエンコードされたシーンを 1 つの動的ハイパーネットワークに抽出します。
これらの技術により、単一のネットワークが 100 を超える固有のシーンに適合できるようになります。
さらに、HyperFields がテキストと NeRF の間のより一般的なマップを学習し、その結果、ゼロショットまたはいくつかの微調整ステップで新しい配布内および配布外のシーンを予測できることを示します。
Finetuning HyperFields は、学習された一般マップのおかげで加速された収束の恩恵を受け、既存のニューラル最適化ベースの手法より 5 ~ 10 倍速く新しいシーンを合成できます。
私たちのアブレーション実験は、動的アーキテクチャと NeRF 蒸留の両方が HyperFields の表現力にとって重要であることを示しています。

要約(オリジナル)

We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes — either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields.

arxiv情報

著者 Sudarshan Babu,Richard Liu,Avery Zhou,Michael Maire,Greg Shakhnarovich,Rana Hanocka
発行日 2024-06-13 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク