High-Efficiency Neural Video Compression via Hierarchical Predictive Learning

要約

強化されたDeep Hierarchical Video Compression-DHVC 2.0が発表された。この単一モデルのニューラル・ビデオ・コーデックは、広範なビットレートで動作し、代表的な方法よりも優れた圧縮性能を実現するだけでなく、標準的なGPU上で大幅に少ないメモリフットプリントでリアルタイム処理を可能にする、驚異的な複雑さ効率も実現します。これらの顕著な進歩は、階層的予測符号化の使用から生じています。各ビデオフレームは、階層的変分オートエンコーダによってマルチスケール表現に一様に変換される。フレームの特定のスケールの特徴表現に対して、対応する潜在的な残差変数は、同じフレームから低スケールの空間的特徴を参照することによって生成され、次に、前のフレームからの同じスケールの時間的参照と現在のフレームの低スケールの空間的参照を使用してパラメータが予測される確率的モデルを使用して条件付きエントロピー符号化される。この特徴空間処理は、各フレームの最低スケールから最高スケールまで動作するため、数十年にわたってビデオコーデックで標準的に使用されてきた、複雑で負荷の高い動き推定と補正技術を完全に排除することができる。階層的アプローチは並列処理を容易にし、エンコードとデコードの両方を高速化し、伝送に適したプログレッシブデコードをサポートするため、パケットロスが存在するネットワークビデオアプリケーションに特に有利です。ソースコードも公開予定。

要約(オリジナル)

The enhanced Deep Hierarchical Video Compression-DHVC 2.0-has been introduced. This single-model neural video codec operates across a broad range of bitrates, delivering not only superior compression performance to representative methods but also impressive complexity efficiency, enabling real-time processing with a significantly smaller memory footprint on standard GPUs. These remarkable advancements stem from the use of hierarchical predictive coding. Each video frame is uniformly transformed into multiscale representations through hierarchical variational autoencoders. For a specific scale’s feature representation of a frame, its corresponding latent residual variables are generated by referencing lower-scale spatial features from the same frame and then conditionally entropy-encoded using a probabilistic model whose parameters are predicted using same-scale temporal reference from previous frames and lower-scale spatial reference of the current frame. This feature-space processing operates from the lowest to the highest scale of each frame, completely eliminating the need for the complexity-intensive motion estimation and compensation techniques that have been standard in video codecs for decades. The hierarchical approach facilitates parallel processing, accelerating both encoding and decoding, and supports transmission-friendly progressive decoding, making it particularly advantageous for networked video applications in the presence of packet loss. Source codes will be made available.

arxiv情報

著者 Ming Lu,Zhihao Duan,Wuyang Cong,Dandan Ding,Fengqing Zhu,Zhan Ma
発行日 2024-10-03 15:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク