im2nerf: Image to Neural Radiance Field in the Wild

要約

im2nerf は、市販の認識方法からのセグメンテーション出力のみによって監視された、単一の入力画像が与えられた場合に連続的なニューラル オブジェクト表現を予測する学習フレームワークです。
ニューラル放射輝度フィールドを構築するための標準的なアプローチは、マルチビューの一貫性を利用し、シーンの多くのキャリブレーションされたビューを必要とします。これは、実際の大規模な画像データで学習する場合には満たすことができない要件です。
入力画像を、オブジェクト形状のコード、オブジェクトの外観のコード、およびオブジェクト画像がキャプチャされた推定カメラポーズを含む、絡み合っていないオブジェクト表現にエンコードするモデルを導入することにより、この欠点に対処するための一歩を踏み出しました。
私たちのモデルは、予測されたオブジェクト表現に NeRF を適用し、ボリューム レンダリングを使用して新しいビューから画像を生成します。
入力画像の大規模なコレクションでモデルをエンドツーエンドでトレーニングします。
モデルには単一ビューの画像のみが提供されているため、問題は非常に制約不足です。
したがって、合成された入力ビューで再構成損失を使用することに加えて、新しいレンダリングされたビューで補助的な敵対的損失を使用します。
さらに、オブジェクトの対称性を活用し、カメラ ポーズの一貫性を循環させます。
Open Images データセットの定性的実験だけでなく、ShapeNet データセットの広範な定量的および定性的実験も行っています。
すべての場合において、im2nerf が野生の単一ビューのポーズをとっていない画像からの新しいビュー合成の最先端のパフォーマンスを達成することを示します。

要約(オリジナル)

We propose im2nerf, a learning framework that predicts a continuous neural object representation given a single input image in the wild, supervised by only segmentation output from off-the-shelf recognition methods. The standard approach to constructing neural radiance fields takes advantage of multi-view consistency and requires many calibrated views of a scene, a requirement that cannot be satisfied when learning on large-scale image data in the wild. We take a step towards addressing this shortcoming by introducing a model that encodes the input image into a disentangled object representation that contains a code for object shape, a code for object appearance, and an estimated camera pose from which the object image is captured. Our model conditions a NeRF on the predicted object representation and uses volume rendering to generate images from novel views. We train the model end-to-end on a large collection of input images. As the model is only provided with single-view images, the problem is highly under-constrained. Therefore, in addition to using a reconstruction loss on the synthesized input view, we use an auxiliary adversarial loss on the novel rendered views. Furthermore, we leverage object symmetry and cycle camera pose consistency. We conduct extensive quantitative and qualitative experiments on the ShapeNet dataset as well as qualitative experiments on Open Images dataset. We show that in all cases, im2nerf achieves the state-of-the-art performance for novel view synthesis from a single-view unposed image in the wild.

arxiv情報

著者 Lu Mi,Abhijit Kundu,David Ross,Frank Dellaert,Noah Snavely,Alireza Fathi
発行日 2022-09-08 23:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク