Advancing Learned Video Compression with In-loop Frame Prediction


これまでのほとんどの研究では、モーション マップを検出して圧縮し、参照フレームをターゲット フレームにワープさせることで、時間的な冗長性を探っていました。
しかし、シーケンシャル リファレンス フレームの過去の事前データを十分に活用できませんでした。
この論文では、ビットレートを消費することなく、以前に圧縮されたフレームからターゲットフレームを効果的に予測できる、ループ内フレーム予測モジュールを使用した Advanced Learned Video Compression (ALVC) アプローチを提案します。
P フレームと B フレームをそれぞれ圧縮するための反復型と双方向のループ内予測モジュールを提案します。
実験は、学習したビデオ圧縮における ALVC アプローチの最先端のパフォーマンスを示しています。
また、PSNR の点で x265 のデフォルトの階層 B モードよりも優れており、MS-SSIM で SSIM 調整された x265 の最も遅いモードよりも優れています。
プロジェクト ページ:。


Recent years have witnessed an increasing interest in end-to-end learned video compression. Most previous works explore temporal redundancy by detecting and compressing a motion map to warp the reference frame towards the target frame. Yet, it failed to adequately take advantage of the historical priors in the sequential reference frames. In this paper, we propose an Advanced Learned Video Compression (ALVC) approach with the in-loop frame prediction module, which is able to effectively predict the target frame from the previously compressed frames, without consuming any bit-rate. The predicted frame can serve as a better reference than the previously compressed frame, and therefore it benefits the compression performance. The proposed in-loop prediction module is a part of the end-to-end video compression and is jointly optimized in the whole framework. We propose the recurrent and the bi-directional in-loop prediction modules for compressing P-frames and B-frames, respectively. The experiments show the state-of-the-art performance of our ALVC approach in learned video compression. We also outperform the default hierarchical B mode of x265 in terms of PSNR and beat the slowest mode of the SSIM-tuned x265 on MS-SSIM. The project page:


著者 Ren Yang,Radu Timofte,Luc Van Gool
発行日 2022-11-18 07:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, eess.IV パーマリンク