要約
オブジェクトの 2D ビューからの情報を 3D 表現にエンコードすることは、一般化された 3D 特徴抽出にとって重要です。
このような機能により、3D 再構成、3D 生成、その他のアプリケーションが可能になります。
私たちは、事前にトレーニングされた画像特徴抽出器を必要とせずに、入力 2D 画像を任意の 3D 表現にエンコードする GOEmbed (Gradient Origin Embeddings) を提案します。
大規模な事前トレーニング済みモデルから抽出された 2D 特徴を使用して入力画像をエンコードしたり、さまざまな 3D 表現を処理するようにカスタマイズされた特徴を設計したりする典型的な従来のアプローチとは異なります。
さらに悪いことに、MLP やハッシュ グリッドなどの特殊な 3D ニューラル表現にはエンコーダがまだ利用できない可能性があります。
私たちは、OmniObject3D ベンチマークのさまざまな実験設定の下で、提案した GOEmbed を広範囲に評価しました。
まず、Plenoptic-Encoding と呼ばれる例示的な実験を使用して、このメカニズムが複数の 3D 表現における以前のエンコーディング メカニズムとどの程度うまく比較できるかを評価します。
次に、GOEmbed メカニズムの有効性は、GOEmbedFusion と呼ばれる GOEmbed と DFM (Diffusion with Forward Models) の組み合わせを使用して、OmniObject3D 生成タスクで新しい SOTA FID 22.12 を達成することによってさらに実証されます。
最後に、GOEmbed メカニズムがスパース ビュー 3D 再構成パイプラインをどのように強化するかを評価します。
要約(オリジナル)
Encoding information from 2D views of an object into a 3D representation is crucial for generalized 3D feature extraction. Such features can then enable 3D reconstruction, 3D generation, and other applications. We propose GOEmbed (Gradient Origin Embeddings) that encodes input 2D images into any 3D representation, without requiring a pre-trained image feature extractor; unlike typical prior approaches in which input images are either encoded using 2D features extracted from large pre-trained models, or customized features are designed to handle different 3D representations; or worse, encoders may not yet be available for specialized 3D neural representations such as MLPs and hash-grids. We extensively evaluate our proposed GOEmbed under different experimental settings on the OmniObject3D benchmark. First, we evaluate how well the mechanism compares against prior encoding mechanisms on multiple 3D representations using an illustrative experiment called Plenoptic-Encoding. Second, the efficacy of the GOEmbed mechanism is further demonstrated by achieving a new SOTA FID of 22.12 on the OmniObject3D generation task using a combination of GOEmbed and DFM (Diffusion with Forward Models), which we call GOEmbedFusion. Finally, we evaluate how the GOEmbed mechanism bolsters sparse-view 3D reconstruction pipelines.
arxiv情報
著者 | Animesh Karnewar,Roman Shapovalov,Tom Monnier,Andrea Vedaldi,Niloy J. Mitra,David Novotny |
発行日 | 2024-07-15 17:15:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google