Sampling for View Synthesis: From Local Light Field Fusion to Neural Radiance Fields and Beyond

要約

複雑な現実世界のシーンの斬新なビューをキャプチャしてレンダリングすることは、拡張現実や仮想現実、没入型体験、3D 写真などのアプリケーションを伴う、コンピューター グラフィックスとビジョンにおける長年の課題です。
ディープラーニングの出現により、従来イメージベースのレンダリングとして知られていたこの分野で革命的な進歩が可能になりました。
ただし、以前のアプローチでは、手に負えないほど高密度のビュー サンプリングが必要であるか、ユーザーが高品質の新しいビューを確実にレンダリングするためにシーンのビューをサンプリングする方法についてのガイダンスがほとんど、またはまったく提供されていません。
ローカル ライト フィールド フュージョンは、サンプリングされたビューの不規則なグリッドからの実用的なビュー合成のためのアルゴリズムを提案します。このアルゴリズムでは、最初に各サンプリング ビューをマルチプレーン イメージ シーン表現を介してローカル ライト フィールドに拡張し、次に隣接するローカル ライト フィールドをブレンドすることで新しいビューをレンダリングします。
重要なのは、従来のプレノプティック サンプリング理論を拡張して、アルゴリズムを使用するときにユーザーが特定のシーンのビューをどの程度の密度でサンプリングする必要があるかを正確に指定する境界を導き出すことです。
最大 4000 分の 1 少ないビューを使用しながら、ナイキストレート ビュー サンプリングの知覚品質を実現します。
その後の開発により、ビュー合成、特に神経放射フィールドを使用した深層学習のための新しいシーン表現が生まれましたが、少数の画像からのまばらなビュー合成の問題は重要性が増すばかりです。
我々は、スパース画像ビュー合成や単一画像ビュー合成に関する最近の結果の一部を再現するとともに、規範的なサンプリング ガイドラインが新世代の画像ベースのレンダリング アルゴリズムに実現可能かどうかという問題を提起します。

要約(オリジナル)

Capturing and rendering novel views of complex real-world scenes is a long-standing problem in computer graphics and vision, with applications in augmented and virtual reality, immersive experiences and 3D photography. The advent of deep learning has enabled revolutionary advances in this area, classically known as image-based rendering. However, previous approaches require intractably dense view sampling or provide little or no guidance for how users should sample views of a scene to reliably render high-quality novel views. Local light field fusion proposes an algorithm for practical view synthesis from an irregular grid of sampled views that first expands each sampled view into a local light field via a multiplane image scene representation, then renders novel views by blending adjacent local light fields. Crucially, we extend traditional plenoptic sampling theory to derive a bound that specifies precisely how densely users should sample views of a given scene when using our algorithm. We achieve the perceptual quality of Nyquist rate view sampling while using up to 4000x fewer views. Subsequent developments have led to new scene representations for deep learning with view synthesis, notably neural radiance fields, but the problem of sparse view synthesis from a small number of images has only grown in importance. We reprise some of the recent results on sparse and even single image view synthesis, while posing the question of whether prescriptive sampling guidelines are feasible for the new generation of image-based rendering algorithms.

arxiv情報

著者 Ravi Ramamoorthi
発行日 2024-08-08 16:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク