要約
最近、学習されたビデオ圧縮が素晴らしいパフォーマンスを達成しました。
従来のハイブリッド予測符号化フレームワークに従い、ほとんどの学習済み手法は一般に、フレーム間の冗長性を除去するために動き推定動き補償 (MEMC) 手法を採用しています。
ただし、不正確な動きベクトル (MV) は通常、再構築されたフレームの歪みにつながります。
さらに、ほとんどのアプローチは空間的およびチャネルの冗長性を無視します。
上記の問題を解決するために、我々は、潜在表現を学習し、変分オートエンコーダ (VAE) を使用してフレーム内ピクセルの特性をキャプチャする、動きを認識した時空間チャネル コンテキスト コーディング ベースのビデオ圧縮ネットワーク (MAASTC-VC) を提案します。
そしてフレーム間の動き。
具体的には、マルチスケール動き認識モジュール (MS-MAM) を設計し、マルチスケール動き予測情報を粗い方法から細かい方法で利用して、時空間チャネルの一貫した動きベクトルを推定します。
その上で、空間、時間、チャネルのそれぞれの側面からビット消費を削減するために潜在表現の相関関係を調査する時空間チャネル コンテキスト モジュール (STCCM) をさらに提案します。
包括的な実験により、私たちが提案した MAASTC-VC が 3 つの公開ベンチマーク データセットに対する以前の最先端 (SOTA) 手法よりも優れていることが示されています。
具体的には、この方法では、PSNR メトリクスで H.265/HEVC (HM-16.20) に対して平均 10.15\% BD レートを節約し、MS で H.266/VVC (VTM-13.2) に対して平均 23.93\% BD レートを節約します。
-SSIM メトリック。
要約(オリジナル)
Recently, learned video compression has achieved exciting performance. Following the traditional hybrid prediction coding framework, most learned methods generally adopt the motion estimation motion compensation (MEMC) method to remove inter-frame redundancy. However, inaccurate motion vector (MV) usually lead to the distortion of reconstructed frame. In addition, most approaches ignore the spatial and channel redundancy. To solve above problems, we propose a motion-aware and spatial-temporal-channel contextual coding based video compression network (MASTC-VC), which learns the latent representation and uses variational autoencoders (VAEs) to capture the characteristics of intra-frame pixels and inter-frame motion. Specifically, we design a multiscale motion-aware module (MS-MAM) to estimate spatial-temporal-channel consistent motion vector by utilizing the multiscale motion prediction information in a coarse-to-fine way. On the top of it, we further propose a spatial-temporal-channel contextual module (STCCM), which explores the correlation of latent representation to reduce the bit consumption from spatial, temporal and channel aspects respectively. Comprehensive experiments show that our proposed MASTC-VC is surprior to previous state-of-the-art (SOTA) methods on three public benchmark datasets. More specifically, our method brings average 10.15\% BD-rate savings against H.265/HEVC (HM-16.20) in PSNR metric and average 23.93\% BD-rate savings against H.266/VVC (VTM-13.2) in MS-SSIM metric.
arxiv情報
著者 | Yiming Wang,Qian Huang,Bin Tang,Huashan Sun,Xing Li |
発行日 | 2023-10-19 13:32:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google