要約
動画像圧縮では、動き補償や残差補償により、以前に復号されたフレームの画素を再利用することで符号化効率を向上させることができる。1) 1次:画素空間における冗長性、すなわち、隣接するフレーム間の画素値の類似性であり、動きと残差補償を用いて効果的に捉えられる。2) 2次:自然映像における滑らかな動きによる動きと残差マップの冗長性であり、階層的な2レベルの冗長性を定義する。既存のニューラル・ビデオコーディングの文献のほとんどが1次の冗長性を扱っているのに対し、我々は予測器を介してニューラル・ビデオコーデックの2次の冗長性を捕らえる問題に取り組む。我々は、以前にデコードされたデータから推定することを学習する、一般的な動きと残差の予測器を導入する。これらの予測器は軽量であり、レートディストーション性能を向上させるために、ほとんどのニューラル・ビデオコーデックに採用することができる。さらに、ニューラルビデオコーディングの文献ではRGBが主流ですが、我々はYUV420色空間を受け入れるためにニューラルビデオコーデックの一般的な修正を導入し、YUV420の結果を報告します。我々の実験では、有名なニューラルネットワークビデオコーデックと我々の予測器を使用することで、UVGデータセットで測定したRGBとYUV420色空間で38%と34%のビットレート削減を達成しました。
要約(オリジナル)
In video compression, coding efficiency is improved by reusing pixels from previously decoded frames via motion and residual compensation. We define two levels of hierarchical redundancy in video frames: 1) first-order: redundancy in pixel space, i.e., similarities in pixel values across neighboring frames, which is effectively captured using motion and residual compensation, 2) second-order: redundancy in motion and residual maps due to smooth motion in natural videos. While most of the existing neural video coding literature addresses first-order redundancy, we tackle the problem of capturing second-order redundancy in neural video codecs via predictors. We introduce generic motion and residual predictors that learn to extrapolate from previously decoded data. These predictors are lightweight, and can be employed with most neural video codecs in order to improve their rate-distortion performance. Moreover, while RGB is the dominant colorspace in neural video coding literature, we introduce general modifications for neural video codecs to embrace the YUV420 colorspace and report YUV420 results. Our experiments show that using our predictors with a well-known neural video codec leads to 38% and 34% bitrate savings in RGB and YUV420 colorspaces measured on the UVG dataset.
arxiv情報
著者 | Reza Pourreza,Hoang Le,Amir Said,Guillaume Sautiere,Auke Wiggers |
発行日 | 2022-08-08 17:49:19+00:00 |
arxivサイト | arxiv_id(pdf) |