GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting


3D ガウス スプラットは、静的な 3D シーンの革新的で効果的な学習された表現として登場しました。
この研究では、ビデオを表現するための新しいプリミティブとして 2D ガウス スプラットの使用を検討します。
私たちは、ビデオ フレームを効果的に表現および圧縮できる 2D ガウス スプラットのセットを学習するアプローチである GSVC を提案します。
GSVC には次の技術が組み込まれています。(i) 隣接するフレーム間の時間的冗長性を利用してトレーニングを高速化し、圧縮効率を向上させるために、前のフレームに基づいてフレームのガウス スプラットを予測します。
(ii) ファイル サイズと品質の間のトレードオフを制御するために、ビデオ品質への寄与が低いガウス スプラットを削除します。
(iii) ビデオのダイナミクスをキャプチャするために、大きな動きや新しく出現したオブジェクトを含むコンテンツに合わせてガウス スプラットをランダムに追加します。
(iv) シーンの大きな変化に対処するために、学習プロセス中の損失の差に基づいてキー フレームを検出します。
実験の結果、GSVC は、AV1 や VVC などの最先端のビデオ コーデックに匹敵する良好なレートと歪みのトレードオフ、および 1920×1080 ビデオで 1500 fps のレンダリング速度を達成していることが示されています。


3D Gaussian splats have emerged as a revolutionary, effective, learned representation for static 3D scenes. In this work, we explore using 2D Gaussian splats as a new primitive for representing videos. We propose GSVC, an approach to learning a set of 2D Gaussian splats that can effectively represent and compress video frames. GSVC incorporates the following techniques: (i) To exploit temporal redundancy among adjacent frames, which can speed up training and improve the compression efficiency, we predict the Gaussian splats of a frame based on its previous frame; (ii) To control the trade-offs between file size and quality, we remove Gaussian splats with low contribution to the video quality; (iii) To capture dynamics in videos, we randomly add Gaussian splats to fit content with large motion or newly-appeared objects; (iv) To handle significant changes in the scene, we detect key frames based on loss differences during the learning process. Experiment results show that GSVC achieves good rate-distortion trade-offs, comparable to state-of-the-art video codecs such as AV1 and VVC, and a rendering speed of 1500 fps for a 1920×1080 video.


著者 Longan Wang,Yuang Shi,Wei Tsang Ooi
発行日 2025-01-22 17:24:38+00:00
カテゴリー: cs.CV, cs.MM パーマリンク