要約
マルチビュー ビデオからダイナミック シーンの写真のようにリアルな自由視点ビデオ (FVV) を構築することは、依然として困難な取り組みです。
現在のニューラル レンダリング技術によって達成された目覚ましい進歩にも関わらず、これらの方法は通常、オフライン トレーニング用に完全なビデオ シーケンスを必要とし、リアルタイム レンダリングができません。
これらの制約に対処するために、現実世界の動的なシーンの効率的な FVV ストリーミングのために設計されたメソッドである 3DGStream を導入します。
私たちの手法は、12 秒以内の高速なオンザフライ フレームごとの再構成と 200 FPS でのリアルタイム レンダリングを実現します。
具体的には、3D ガウス (3DG) を利用してシーンを表現します。
フレームごとに 3DG を直接最適化する単純なアプローチの代わりに、コンパクトなニューラル変換キャッシュ (NTC) を採用して 3DG の移動と回転をモデル化し、各 FVV フレームに必要なトレーニング時間とストレージを大幅に削減します。
さらに、動的シーンで出現するオブジェクトを処理するための適応型 3DG 追加戦略を提案します。
実験では、3DGStream が最先端の方法と比較した場合、レンダリング速度、画質、トレーニング時間、モデル ストレージの点で競争力のあるパフォーマンスを達成していることが実証されています。
要約(オリジナル)
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\’ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.
arxiv情報
著者 | Jiakai Sun,Han Jiao,Guangyuan Li,Zhanjie Zhang,Lei Zhao,Wei Xing |
発行日 | 2024-06-11 17:26:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google