要約
我々は、効率的な新しいビュー合成のための微分可能なレンダリングアルゴリズムを提案する。ボリュームベースの表現から学習された点表現を採用することで、学習と推論の両方において、メモリとランタイムで既存の手法の1桁以上の改善を実現する。本手法は、一様にサンプリングされたランダムな点群から始まり、点ごとの位置とビューに依存した外観を学習し、微分可能なスプラットベースのレンダラを用いて、入力画像の集合にマッチするようにモデルを発展させる。本手法は、学習・推論ともにNeRFの最大300倍高速でありながら、品質はわずかな犠牲で済み、静的シーンでは10~MB以下のメモリしか使用しません。動的なシーンでは、本手法はSTNeRFより2桁速く学習し、インタラクティブに近い速度でレンダリングします。また、時間コヒーレンシーの正則化を行わなくても、高い画像品質と時間コヒーレンスを維持することができます。
要約(オリジナル)
We propose a differentiable rendering algorithm for efficient novel view synthesis. By departing from volume-based representations in favor of a learned point representation, we improve on existing methods more than an order of magnitude in memory and runtime, both in training and inference. The method begins with a uniformly-sampled random point cloud and learns per-point position and view-dependent appearance, using a differentiable splat-based renderer to evolve the model to match a set of input images. Our method is up to 300x faster than NeRF in both training and inference, with only a marginal sacrifice in quality, while using less than 10~MB of memory for a static scene. For dynamic scenes, our method trains two orders of magnitude faster than STNeRF and renders at near interactive rate, while maintaining high image quality and temporal coherence even without imposing any temporal-coherency regularizers.
arxiv情報
著者 | Qiang Zhang,Seung-Hwan Baek,Szymon Rusinkiewicz,Felix Heide |
発行日 | 2022-06-08 01:54:06+00:00 |
arxivサイト | arxiv_id(pdf) |