要約
我々は、高品質、高解像度、リアルタイムの新規ビュー合成を実行するための新しいニューラル アルゴリズムを紹介します。
当社のネットワークは、入力 RGB 画像またはビデオ ストリームのまばらなセットから 3D シーンを再構築し、NVIDIA A100 上で 1080p 解像度、30fps で新しいビューをレンダリングします。
当社のフィードフォワード ネットワークは、さまざまなデータセットやシーンを一般化し、リアルタイム手法として最先端の品質を生み出します。
当社の品質は、いくつかのトップオフラインメソッドの品質に近づき、場合によってはそれを上回ります。
これらの結果を達成するために、私たちはいくつかの重要な概念の新しい組み合わせを使用し、それらを結び付けて、一貫した効果的なアルゴリズムを作成します。
私たちは、半透明のレイヤーを使用してシーンを表現する以前の作品を基にして、反復的に学習したレンダリングとリファインのアプローチを使用してこれらのレイヤーを改善します。
私たちの方法では、フラット レイヤーの代わりに、複雑な深度とオクルージョンを持つシーンを効率的に表現するレイヤード デプス マップ (LDM) を再構築します。
反復的な更新ステップは、マルチスケールの UNet スタイルのアーキテクチャに組み込まれており、解像度を下げてできるだけ多くの計算を実行します。
各更新ステップ内で、複数の入力ビューからの情報をより適切に集約するために、特殊な Transformer ベースのネットワーク コンポーネントを使用します。
これにより、入力ごとの画像処理の大部分をレイヤー空間ではなく入力画像空間で実行できるようになり、効率がさらに向上します。
最後に、再構成とレンダリングのリアルタイム性により、フレームごとに内部 3D ジオメトリを動的に作成および破棄し、ビューごとに LDM を生成します。
これらを総合すると、ビュー合成のための斬新で効果的なアルゴリズムが生成されます。
広範な評価を通じて、当社はリアルタイムの速度で最先端の品質を達成していることを実証しています。
プロジェクトページ:https://quark-3d.github.io/
要約(オリジナル)
We present a novel neural algorithm for performing high-quality, high-resolution, real-time novel view synthesis. From a sparse set of input RGB images or videos streams, our network both reconstructs the 3D scene and renders novel views at 1080p resolution at 30fps on an NVIDIA A100. Our feed-forward network generalizes across a wide variety of datasets and scenes and produces state-of-the-art quality for a real-time method. Our quality approaches, and in some cases surpasses, the quality of some of the top offline methods. In order to achieve these results we use a novel combination of several key concepts, and tie them together into a cohesive and effective algorithm. We build on previous works that represent the scene using semi-transparent layers and use an iterative learned render-and-refine approach to improve those layers. Instead of flat layers, our method reconstructs layered depth maps (LDMs) that efficiently represent scenes with complex depth and occlusions. The iterative update steps are embedded in a multi-scale, UNet-style architecture to perform as much compute as possible at reduced resolution. Within each update step, to better aggregate the information from multiple input views, we use a specialized Transformer-based network component. This allows the majority of the per-input image processing to be performed in the input image space, as opposed to layer space, further increasing efficiency. Finally, due to the real-time nature of our reconstruction and rendering, we dynamically create and discard the internal 3D geometry for each frame, generating the LDM for each view. Taken together, this produces a novel and effective algorithm for view synthesis. Through extensive evaluation, we demonstrate that we achieve state-of-the-art quality at real-time rates. Project page: https://quark-3d.github.io/
arxiv情報
著者 | John Flynn,Michael Broxton,Lukas Murmann,Lucy Chai,Matthew DuVall,Clément Godard,Kathryn Heal,Srinivas Kaza,Stephen Lombardi,Xuan Luo,Supreeth Achar,Kira Prabhu,Tiancheng Sun,Lynn Tsai,Ryan Overbeck |
発行日 | 2024-11-25 18:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google