要約
暗黙の神経表現(INR)は、ビデオ表現の強力なアプローチとして浮上しており、圧縮や入力などのタスク全体で汎用性を提供しています。
ただし、それらの暗黙の定式化は解釈可能性と有効性の両方を制限し、包括的なソリューションとしての実用性を損ないます。
D2GVと呼ばれる変形可能な2Dガウスのスプラッティングに基づいた新しいビデオ表現を提案します。これは、3つの重要な目的を達成することを目的としています。1)効率を改善しながら優れた品質を提供します。
2)スケーラビリティと解釈性の向上。
3)下流タスクの親切さの増加。
具体的には、最初にビデオシーケンスを固定長の写真(GOP)に分割して、ビデオ長で並列トレーニングと線形スケーラビリティを可能にします。
各GOPについて、D2GVは、標準空間から対応するタイムスタンプに変形する2Dガウスに微分可能なラスター化を適用することにより、ビデオフレームを表します。
特に、効率的なCUDAベースのラスタ化を活用するD2GVは、400 fpsを超える速度で高速でデコードを収束させ、最先端のINRに一致または上回る品質を提供します。
さらに、D2GVをよりコンパクトな表現に合理化するために、学習可能な剪定および量子化戦略を組み込みます。
ビデオ補間、入力、除去などのタスクにおけるD2GVの汎用性を示し、ビデオ表現の有望なソリューションとしての可能性を強調しています。
コードは、\ href {https://github.com/evan-sudo/d2gv} {https://github.com/evan-sudo/d2gv}で入手できます。
要約(オリジナル)
Implicit Neural Representations (INRs) have emerged as a powerful approach for video representation, offering versatility across tasks such as compression and inpainting. However, their implicit formulation limits both interpretability and efficacy, undermining their practicality as a comprehensive solution. We propose a novel video representation based on deformable 2D Gaussian splatting, dubbed D2GV, which aims to achieve three key objectives: 1) improved efficiency while delivering superior quality; 2) enhanced scalability and interpretability; and 3) increased friendliness for downstream tasks. Specifically, we initially divide the video sequence into fixed-length Groups of Pictures (GoP) to allow parallel training and linear scalability with video length. For each GoP, D2GV represents video frames by applying differentiable rasterization to 2D Gaussians, which are deformed from a canonical space into their corresponding timestamps. Notably, leveraging efficient CUDA-based rasterization, D2GV converges fast and decodes at speeds exceeding 400 FPS, while delivering quality that matches or surpasses state-of-the-art INRs. Moreover, we incorporate a learnable pruning and quantization strategy to streamline D2GV into a more compact representation. We demonstrate D2GV’s versatility in tasks including video interpolation, inpainting and denoising, underscoring its potential as a promising solution for video representation. Code is available at: \href{https://github.com/Evan-sudo/D2GV}{https://github.com/Evan-sudo/D2GV}.
arxiv情報
著者 | Mufan Liu,Qi Yang,Miaoran Zhao,He Huang,Le Yang,Zhu Li,Yiling Xu |
発行日 | 2025-03-07 17:26:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google