QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos

要約

オンラインの自由視点ビデオ (FVV) ストリーミングは、比較的研究が進んでいない難しい問題です。
ボリューム表現に対するオンザフライの増分更新、リアルタイムの制約を満たすための高速トレーニングとレンダリング、効率的な送信のための小さなメモリ使用量が必要です。
実現されれば、特に 3D ビデオ会議やライブ ボリューメトリック ビデオ ブロードキャストなどの新しいアプリケーションが可能になり、ユーザー エクスペリエンスが向上します。
この研究では、3D ガウス スプラッティング (3D-GS) を使用して FVV をストリーミングするための量子化効率的エンコーディング (QUEEN) の新しいフレームワークを提案します。
QUEEN は、構造的な制約を課すことなく、各タイムステップで連続するフレーム間のガウス属性残差を直接学習するため、高品質の再構築と一般化が可能になります。
残差を効率的に保存するために、量子化スパース性フレームワークをさらに提案します。これには、ガウス位置以外の属性残差を効果的に量子化するための学習済み潜在デコーダーと、位置残差をスパース化するための学習済みゲート モジュールが含まれます。
シーンの静的内容と動的内容を分離するための信号としてガウス ビュー空間の勾配差分ベクトルを使用することを提案します。
これは効果的なスパース学習のためのガイドとして機能し、トレーニングをスピードアップします。
さまざまな FVV ベンチマークにおいて、QUEEN はすべての指標において最先端のオンライン FVV 手法を上回っています。
特に、いくつかの非常に動的なシーンでは、5 秒未満でトレーニングし、350 FPS でレンダリングしながら、モデル サイズがフレームあたりわずか 0.7 MB に削減されます。
プロジェクトの Web サイトは https://research.nvidia.com/labs/amri/projects/queen です。

要約(オリジナル)

Online free-viewpoint video (FVV) streaming is a challenging problem, which is relatively under-explored. It requires incremental on-the-fly updates to a volumetric representation, fast training and rendering to satisfy real-time constraints and a small memory footprint for efficient transmission. If achieved, it can enhance user experience by enabling novel applications, e.g., 3D video conferencing and live volumetric video broadcast, among others. In this work, we propose a novel framework for QUantized and Efficient ENcoding (QUEEN) for streaming FVV using 3D Gaussian Splatting (3D-GS). QUEEN directly learns Gaussian attribute residuals between consecutive frames at each time-step without imposing any structural constraints on them, allowing for high quality reconstruction and generalizability. To efficiently store the residuals, we further propose a quantization-sparsity framework, which contains a learned latent-decoder for effectively quantizing attribute residuals other than Gaussian positions and a learned gating module to sparsify position residuals. We propose to use the Gaussian viewspace gradient difference vector as a signal to separate the static and dynamic content of the scene. It acts as a guide for effective sparsity learning and speeds up training. On diverse FVV benchmarks, QUEEN outperforms the state-of-the-art online FVV methods on all metrics. Notably, for several highly dynamic scenes, it reduces the model size to just 0.7 MB per frame while training in under 5 sec and rendering at 350 FPS. Project website is at https://research.nvidia.com/labs/amri/projects/queen

arxiv情報

著者 Sharath Girish,Tianye Li,Amrita Mazumdar,Abhinav Shrivastava,David Luebke,Shalini De Mello
発行日 2024-12-05 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク